python
ASN_forever
这个作者很懒,什么都没留下…
展开
-
UnicodeEncodeError: 'gbk' codec can't encode character u'\xa9' in position xxx:illegal multibyte ...
python2.7在使用urllib2爬取"https://www.block123.com/"页面时报这个编码错误,解决办法是在原来的decode('utf-8')中再增加一个ignore参数,代码如下:原代码:html = response.read().decode('utf-8')修改后:html = response.read().decode('utf-8','ignore').rep...原创 2018-06-30 09:49:12 · 9275 阅读 · 0 评论 -
urllib和urllib2的区别(很全面详细!)
文章摘自:https://www.cnblogs.com/wly923/archive/2013/05/07/3057122.htmlurllib与urllib2的学习总结(python2.7.X) 先啰嗦一句,我使用的版本是python2.7,没有使用3.X的原因是我觉得2.7的扩展比较多,且较之前的版本变化不大,使用顺手。3.X简直就是革命性的变化,用的蹩手。3.x的版本urllib与url...转载 2018-06-29 09:49:06 · 1736 阅读 · 0 评论 -
beautifulsoup获取script标签内的指定键的值
<script type="application/ld+json"> { "@context": "https://ziyuan.baidu.com/contexts/cambrian.jsonld", "@id": "https://www.zhihu.com/question/30737616",原创 2018-11-15 17:32:52 · 17780 阅读 · 1 评论 -
python3爬取知乎某话题下的若干个问题及其回答
思路:通过selenium的webdriver实现页面的点击、下来等操作。页面完全加载后通beautifulsoup来查找相应的标签。将数据放到列表中,然后通过xlwt创建excel,并把数据存进去。缺点:容易遇到性能问题。可能一个话题有很多的回复,而对于往excel中插入数据来说,上万条就会有卡顿了。其次,此代码处理完一个页面后并不会关闭,而是接着打开下一个网页继续处理。等所有网页都处理完后...原创 2018-11-15 19:14:25 · 5399 阅读 · 4 评论 -
beautifulsoup如何只爬取直接标签的内容而不爬取子标签的内容
对于这个问题,在网上大概找到两种靠谱点的回答,但实际上也是有问题的。第一种方法调用find(text=True).strip()第二种方法调用stripped_strings 测试代码from bs4 import BeautifulSouphtml1 = """<li><span class="hello"> hello</sp...原创 2018-11-14 23:43:19 · 7656 阅读 · 6 评论 -
python3安装BeautifulSoup4时出现版本错误的解决办法
首先将下载的BeautifulSoup4的压缩包解压后放到python安装目录下,然后复制BeautifulSoup4解压的路径,运行cmd进入命令行窗口,切换到相应的盘符后,输入cd+空格+路径,按下回车。然后运行python setup.py build或者python setup.py install(python3版本需要在命令前加上python)。然后运行from bs4 imp...原创 2017-10-25 11:14:22 · 11797 阅读 · 1 评论