2015年12月_struggleee_luo

12月 08月 07月 05月 04月 03月 02月 01月

原创 Web Scraping with Python 学习笔记9

Chapter 9: Crawling Through Forms and LoginsPython Requests Library 主要介绍Python Requests Library，它能处理更加复杂的HTTP requests, cookies, headers等等。Submitting a Basic Form 只需四行代码就可以完成一个简单的表单提交，下面是

2015-12-31 14:11:31 1483

原创 Web Scraping with Python 学习笔记8

Chapter 8:Reading and Writing Natural LanguagesSummarizing Data 自然语言处理这块有一项重要的内容就是文本摘要，本节涉及的只是去停用词，类似中文的“地，的，得”，英文中对应的“the，be，and”等等。大概有5000个高频词汇，这足够过滤掉很多无用的2-grams，下面展示的是前100个词汇：def isCommon(ng

2015-12-28 10:52:02 1497 1

原创 Web Scraping with Python 学习笔记7

Chapter 7:Cleaning Your Dirty DataCleaning in Code 首先简单介绍一下N-Gram，N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM, Chinese Language Model)。在做自然语言处理时，通常会根据句子中的固定搭配把句子划分为小片段，这里的固定搭配有2个词组成（2-gram）

2015-12-21 13:36:54 2960

原创 Web Scraping with Python 学习笔记6

Chapter 6: Reading Documents 本章主要解决文档读取问题，是否需要你下载下来再读取还是直接读取从中抽取你需要的数据，同时讨论一下不同文档的编码格式。文本文档如果能直接爬取文本文档那是最好不过了，但是现在的网页都是HTML，XML等格式的，需要我们进行有针对的转换，通常情况下，我们把html文档转为BeautifulSoup对象，然后根据标签（比

2015-12-19 13:17:52 1516

MySQL-Python for Windows 64位

使用在此windows系统中的python来安装一个mysqldb模块

2015-04-30

Linux定时任务不执行怎么办？

2015-05-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人