爬虫技术
hhhparty
这个作者很懒,什么都没留下…
展开
-
python爬取各类文档方法归类小结
HTML文档是互联网上的主要文档类型,但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息,也需要有抓取其他类型文档的能力。下面简要记录一些个人遇到的抓取方法,以备查阅。 抓取TXT文档 在python3下,常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。原创 2017-02-08 12:09:25 · 15625 阅读 · 1 评论 -
python Web爬取工具总结 1 :Requests和BeautifulSoup
1. 引言近一年接触了不少基于python的Web爬虫系统或工具库,收获不少,需要继续总结提高,所以下面对各类工具的应用方法和特性进行总结。 2. 内容概要根据自己的学习经历,本文涉及内容大致有以下部分: - Requests - beautifuSoup - selinium - urlib - scrapy - pyspider原创 2017-09-28 19:05:17 · 950 阅读 · 0 评论