![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
ASN_forever
这个作者很懒,什么都没留下…
展开
-
beautifulsoup获取script标签内的指定键的值
<script type="application/ld+json"> { "@context": "https://ziyuan.baidu.com/contexts/cambrian.jsonld", "@id": "https://www.zhihu.com/question/30737616",原创 2018-11-15 17:32:52 · 17688 阅读 · 1 评论 -
python3爬取知乎某话题下的若干个问题及其回答
思路:通过selenium的webdriver实现页面的点击、下来等操作。页面完全加载后通beautifulsoup来查找相应的标签。将数据放到列表中,然后通过xlwt创建excel,并把数据存进去。缺点:容易遇到性能问题。可能一个话题有很多的回复,而对于往excel中插入数据来说,上万条就会有卡顿了。其次,此代码处理完一个页面后并不会关闭,而是接着打开下一个网页继续处理。等所有网页都处理完后...原创 2018-11-15 19:14:25 · 5370 阅读 · 4 评论 -
beautifulsoup如何只爬取直接标签的内容而不爬取子标签的内容
对于这个问题,在网上大概找到两种靠谱点的回答,但实际上也是有问题的。第一种方法调用find(text=True).strip()第二种方法调用stripped_strings 测试代码from bs4 import BeautifulSouphtml1 = """<li><span class="hello"> hello</sp...原创 2018-11-14 23:43:19 · 7563 阅读 · 6 评论 -
python3安装BeautifulSoup4时出现版本错误的解决办法
首先将下载的BeautifulSoup4的压缩包解压后放到python安装目录下,然后复制BeautifulSoup4解压的路径,运行cmd进入命令行窗口,切换到相应的盘符后,输入cd+空格+路径,按下回车。然后运行python setup.py build或者python setup.py install(python3版本需要在命令前加上python)。然后运行from bs4 imp...原创 2017-10-25 11:14:22 · 11725 阅读 · 1 评论