- 博客(4)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 Web Scraping with Python 学习笔记9
Chapter 9: Crawling Through Forms and LoginsPython Requests Library 主要介绍Python Requests Library,它能处理更加复杂的HTTP requests, cookies, headers等等。Submitting a Basic Form 只需四行代码就可以完成一个简单的表单提交,下面是
2015-12-31 14:11:31 1483
原创 Web Scraping with Python 学习笔记8
Chapter 8:Reading and Writing Natural LanguagesSummarizing Data 自然语言处理这块有一项重要的内容就是文本摘要,本节涉及的只是去停用词,类似中文的“地,的,得”,英文中对应的“the,be,and”等等。大概有5000个高频词汇,这足够过滤掉很多无用的2-grams,下面展示的是前100个词汇:def isCommon(ng
2015-12-28 10:52:02 1497 1
原创 Web Scraping with Python 学习笔记7
Chapter 7:Cleaning Your Dirty DataCleaning in Code 首先简单介绍一下N-Gram,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。在做自然语言处理时,通常会根据句子中的固定搭配把句子划分为小片段,这里的固定搭配有2个词组成(2-gram)
2015-12-21 13:36:54 2960
原创 Web Scraping with Python 学习笔记6
Chapter 6: Reading Documents 本章主要解决文档读取问题,是否需要你下载下来再读取还是直接读取从中抽取你需要的数据,同时讨论一下不同文档的编码格式。文本文档 如果能直接爬取文本文档那是最好不过了,但是现在的网页都是HTML,XML等格式的,需要我们进行有针对的转换,通常情况下,我们把html文档转为BeautifulSoup对象,然后根据标签(比
2015-12-19 13:17:52 1516
Linux定时任务不执行怎么办?
2015-05-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人