Python爬虫实战
文章平均质量分 54
深入学习Python爬虫,总结实战中遇到的问题及相应的解决办法。
lylg_ban
只要遇到了问题,一定会有解决的办法。
展开
-
在ubuntu上部署Scrapy项目遇到的问题及解决方法
ubuntu版本18.04查看版本的命令如下cat /proc/versionpython使用版本 ubuntu18.04自带的python3.6版本位于目录 /usr/local/lib/python3.6安装JDK环境,可参照博客https://blog.csdn.net/lylg_ban/article/details/109676369?spm=1001.2014.3001.5501安装Pycharm编译环境,在网页搜索,下载****.tar.gz,解压即可找原创 2021-06-24 15:50:04 · 422 阅读 · 0 评论 -
pycharm中配置node.js环境
首先下载node.js下载地址:https://nodejs.org/zh-cn/download/选择合适的版本下载,我个人选择的是windows 64位下载完成之后,进行安装node.js安装完之后,配置node系统环境变量我将nodejs安装在了D盘配置完成之后,验证node是否安装成功打开命令行窗口输入node -v,出现版本号,nod本地环境配置成功接着打开pycharm,注意pycharm是专业版的才能配置nodejs环境file-set.原创 2021-02-18 11:35:17 · 18375 阅读 · 10 评论 -
python 字典的多层嵌套,如何快速定位到需要的数据
例如:现有一个字典data = {'key1': {'key2': {'key3': {'key4': {'key5': 'python'}}}}}现在想要获取到key5的值python一般的做法是print(data['key1']['key2']['key3']['key4']['key5'])这样能得到自己想要的结果,此种方法便于理解,但是需要写的代码偏多另一种方法,下载一个jsonpath包jsonpath包的主要作用是以一种简单的方法来提取json文档的部分内容原创 2021-01-09 16:24:02 · 3281 阅读 · 0 评论 -
解决爬虫响应数据的多行正则匹配问题
网站url http://kw.beijing.gov.cn/col/col736/index.html需求:拿到该网站首页的所有的链接分析该网站的预览可知该网站用正常方法匹配不到接着分析该网站的响应数据,发现该文档中有我需要的数据进入pycharm编辑代码打印响应数据 # TODO 第一种方法 urls = re.findall(r'/\w+/\d+/\d+/\d+/art_736_\d+.html', str(html_cont), re.S) # pr原创 2020-10-22 21:14:21 · 292 阅读 · 0 评论 -
爬虫实战之新冠肺炎疫情防控辟谣专区 (动态数据加载)解析({})类型
最近在写一个爬虫项目新冠肺炎疫情防控辟谣专区首页的链接地址为 :http://www.piyao.org.cn/2020yqpy/首先拿到该链接抓包分析该网页可以看到该网址中,并没与首页中各条数据信息,可想而知,数据是动态加载的接着想到 切换到XHR 但是下面并没有包此时切换到JS,如下图最后一条是我们需要的包,里面有我所需要的内容此时的链接变为了http://qc.wa.news.cn/nodeart/list?nid=11215616&pgnum=1.原创 2020-08-22 12:25:02 · 873 阅读 · 2 评论 -
Python爬虫遇到乱码问题及解决方法
今天自己练习了一个爬虫,爬取了我曾经学校的公告通知这个栏目,在获取栏目下每篇文章的标题时,中文显示的却是乱码。爬取div标签下的h5标签,获取文章的题目。tv_name = soup.find_all('div', class_="nr_bt")[0].find('h5', ).getText().strip()print(tv_name)首先我自己知道出现乱码,肯定是格式转换的问题,但是改在哪转换呢?我先试了两个地方,一个是在.strip()后面添加.decode('utf-8原创 2020-07-23 20:38:03 · 776 阅读 · 0 评论