爬虫
2012kaka
这个作者很懒,什么都没留下…
展开
-
url %E4%BD%A0%E5%A5%BD 编码问题
url链接粘贴下来后通常会出现类似%E4%BD%A0%E5%A5%BD的编码,一般来说一个中文字对应三个%编码的是utf-8, 一个中文字对应两个%编码的是GB2312。还可以在http://tool.chinaz.com/tools/urlencode.aspx 这个网站上进行解码测试。在这里%E4%BD%A0%E5%A5%BD是utf-8 你好 的意思。decode 的作用是将其他编码的字符串原创 2016-10-22 16:04:12 · 62477 阅读 · 2 评论 -
爬虫 只爬取网页部分内容的问题
在爬虫爬取网页的时候只爬取到部分内容,后来查到原因是因为爬取的html文件是不规范的html,导致不同的html parser的分析结果不一样。 把原来的soup = BeautifulSoup(wb_data, 'lxml')替换成soup = BeautifulSoup(wb_data, 'html.parser')就可以正常读取内容了。通常 BeautifulSoup 的 html pars原创 2016-10-23 10:45:22 · 6824 阅读 · 0 评论 -
BeautifulSoup安装
方法一 原生安装下载地址 https://www.crummy.com/software/BeautifulSoup/#Download解压运行 python setup.py install ,无报错即安装成功方法二 easy_install使用easy_install ,安装其它的扩展包也更方便easy_install 下载地址:http://pypi.python.org/pypi/setup翻译 2016-10-15 15:38:31 · 565 阅读 · 0 评论 -
Couldn't find a tree builder with the features you requested: lxml 问题解决
Python 模块bs4引用报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml 使用pip和easy_install 安装都安装不成功,后来查到网上的安装lxml的方法解决了这个问题 具体方法查看: http://www.jb51.net/article/67125原创 2016-10-15 19:14:24 · 33220 阅读 · 0 评论 -
pyhton 'gbk' codec can't encode character u'\xa0'
在beautifulSoup爬取网页时会出现’gbk’ codec can’t encode character u’\xa0’的编码问题,原因是gbk无法转换unicode的’\xa0’也就是空格,需要预先处理一下。string.replace(u'\xa0', u' ') 参考链接:http://blog.csdn.net/xiaoyi_zhang/article/details/51675原创 2016-10-29 16:47:33 · 578 阅读 · 0 评论