自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LovePeppa的专栏

你当温柔,却有力量

  • 博客(4)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Web Scraping with Python 学习笔记9

Chapter 9: Crawling Through Forms and LoginsPython Requests Library        主要介绍Python Requests Library,它能处理更加复杂的HTTP requests, cookies, headers等等。Submitting a Basic Form        只需四行代码就可以完成一个简单的表单提交,下面是

2015-12-31 14:11:31 1483

原创 Web Scraping with Python 学习笔记8

Chapter 8:Reading and Writing Natural LanguagesSummarizing Data        自然语言处理这块有一项重要的内容就是文本摘要,本节涉及的只是去停用词,类似中文的“地,的,得”,英文中对应的“the,be,and”等等。大概有5000个高频词汇,这足够过滤掉很多无用的2-grams,下面展示的是前100个词汇:def isCommon(ng

2015-12-28 10:52:02 1496 1

原创 Web Scraping with Python 学习笔记7

Chapter 7:Cleaning Your Dirty DataCleaning in Code        首先简单介绍一下N-Gram,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。在做自然语言处理时,通常会根据句子中的固定搭配把句子划分为小片段,这里的固定搭配有2个词组成(2-gram)

2015-12-21 13:36:54 2960

原创 Web Scraping with Python 学习笔记6

Chapter 6: Reading Documents        本章主要解决文档读取问题,是否需要你下载下来再读取还是直接读取从中抽取你需要的数据,同时讨论一下不同文档的编码格式。文本文档        如果能直接爬取文本文档那是最好不过了,但是现在的网页都是HTML,XML等格式的,需要我们进行有针对的转换,通常情况下,我们把html文档转为BeautifulSoup对象,然后根据标签(比

2015-12-19 13:17:52 1516

MySQL-Python for Windows 64位

使用在此windows系统中的python来安装一个mysqldb模块

2015-04-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除