![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 86
有偿分享爬虫从基础到深入的相关知识
疋瓞
代码编辑器
展开
-
08_selenium实战——学习平台公开数据批量获取
要求1:可以控制爬取视频的主题(爬取主题搜索之后的内容)要求2:可以控制爬取视频的数量要求3:对于评论数不足5条的用0填充评论内容。原创 2023-10-07 09:11:53 · 193 阅读 · 0 评论 -
07_scrapy的应用——获取电影数据(通过excel保存静态页面scrapy爬虫数据的模板/通过数据库保存)
一般我们自己创建的一些python项目,我们都需要创建虚拟环境,其中会下载很多包,也叫做依赖。但是我们在给他人分享我们的项目时,不能把虚拟环境打包发送给别人,因为每个人电脑系统不同,我们可以把依赖导出为依赖清单,然后别人有了我们的依赖清单,就可以用一条指令把我们的依赖下载到它的项目环境中,这样就能快速运行和部署python项目了在终端中生成依赖清单的指令:pip freeze > requirements.txt。原创 2023-06-12 20:50:30 · 1600 阅读 · 0 评论 -
06_Scrapy爬虫框架
下载Scrapy的过程中报错了,之前我的pip是换过的源的,今天没办法又给conda换了源头,也搞清楚了一个用pip指令下载用的是pip的源,用conda指令下载使用的是Anaconda的源。最终今天是通过conda install scrapy下载的scrapy。其实换源的目的是为了下载方便一些,如果你不嫌麻烦,可以记下几个常用的源(清华、百度),然后不论是使用pip还是使用conda的时候,都指定一下源,就可以下载了。原创 2023-06-12 16:25:46 · 2341 阅读 · 0 评论 -
05_lxml模块介绍/通过XPath从html和xml中提取数据/二手房爬虫练习
一、什么是lxml模块lxml是python语言中用于处理xml和html的功能最丰富最完善最简单的模块。它利用XPath就可以实现从xml或者html中解析数据。lxml模块安装指令:pip install lxml二、什么是xml?xml指可拓展标记语言,xml是一种很像html的标记语言。但是xml和html完全属于两个领域的内容。html用于从网页显示数据,xml用于在网络中传输和存储数据。三、什么是XPath?XPath是一门在XML和HTMl文档中查找信息的语言。原创 2023-06-11 19:39:38 · 1196 阅读 · 0 评论 -
04_两种常见的网页反爬措施及应对方法
注意:截图一定要选最小刚好包含验证码的标签。原创 2023-06-09 21:00:38 · 1197 阅读 · 0 评论 -
03_selenium模块的学习和应用/阶段总结
文档这部分知识和爬虫之间的关系:第三方模块selenium适合动态页面爬取,当然静态页面也可以用selenium来爬。简介:selenium自动化测试工具selenium是一个用于web程序测试的工具,selenium是直接运行在浏览器中的,能够像真正的用户一样操作浏览器。支持IE浏览器、谷歌浏览器、Edge、火狐浏览器、Safari浏览器、欧鹏浏览器等。selenium主要用来解决爬虫中的JavaScript渲染问题。原创 2023-06-07 15:18:30 · 1423 阅读 · 0 评论 -
03_tqdm模块简介/API接口抓取/JSON数据/静态网页和动态网页
说明:python中的进度条模块,该模块一般使用在for循环中,注意如果使用该模块就不能够在该模块执行期间使用print下载指令:pip install tqdm使用举例from tqdm import tqdm for i in tqdm(range(1 , 10000001) , desc = '这是一个进度条') : # pass关键字:保证结构的完整性,不参与程序执行。pass该模块可以用在一些大型的python爬虫任务中,用于显示爬虫的爬取进度。原创 2023-06-06 15:45:30 · 477 阅读 · 0 评论 -
02_BeautifulSoup4模块简介与使用/数据持久化
本质:python的一个第三方库作用:在获取到网页源代码的前提下,在HTML文件或者XML文件中提取数据。安装指令:pip install BeautifulSoup4安装说明:除了上面的指令安装之外,还可以用pycharm中的图形化安装界面安装使用BeautifulSoup方法针对网页源代码进行文档解析,返回一个BeautifulSoup对象(本质:树结构),这个解析过程需要解析器。原创 2023-06-05 15:58:19 · 557 阅读 · 0 评论 -
01_爬虫基础知识和requests模块简介
requests模块作用: 向网站所在服务器发送请求,得到响应结果。安装指令:pip install requests说明:如果在pycharm中通过terminal安装,首先在setting中把terminal的路径改成cmd.exe,这样就能在pycharm看到自己当前在pycharm中的虚拟环境了。然后在terminal中执行上面指令,就能够安装requests模块了。原创 2023-06-04 21:31:34 · 1079 阅读 · 0 评论