python爬虫
文章平均质量分 94
Smilecoc
这个作者很懒,什么都没留下…
展开
-
Python库积累之Selenium(一)-Seleniun基础
Selenium是一个用电脑模拟人操作浏览器网页,可以实现自动化,测试等!废话不多说,直接干!准备工作安装seleniummpip install selenium下载浏览器驱动Firefox浏览器驱动:geckodriverChrome浏览器驱动:chromedriver , taobao备用地址IE浏览器驱动:IEDriverServerEdge浏览器驱动:MicrosoftWebDriverOpera浏览器驱动:operadriver需要把浏览器驱动放入系统路径中(运行selen原创 2021-07-23 08:48:21 · 493 阅读 · 0 评论 -
爬取猫眼电影--静态网页反爬与多线程/多进程爬取
本篇爬虫我们将爬取猫眼电影的TOP100排行榜并优化程序,使用多线程/多进程进行数据爬取。如果你是小白可以先查看较为基础的静态爬虫文章:Bilibili每日排行榜爬虫这篇文章中包含静态网页的爬取,利用正则进行的数据提取,数据的写入等,使用的方法也为比较基础网页解析首先到猫眼Top100榜单页面,可以看到总共有十页数据,每页数量为10部电影。点击第二页,可以看到URL为https://maoyan.com/board/4?offset=20,后续点击其他页数也有相同的规律,基本可以推断出offset参数原创 2020-10-18 18:22:19 · 1355 阅读 · 0 评论 -
Python正则表达式中的re.S,re.M,re.I的作用
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:其中正则表达式有如下修饰符:修饰符描述re.I使匹配对大小写不敏感re.L做本地化识别(locale-aware)匹配re.M多行匹配,影响 ^ 和 $re.S使 . 匹配包括换行在内的所有字符re.U根据Unicode字符集解析字符。这个标志影响 \w, \W, \转载 2020-10-16 11:10:40 · 6363 阅读 · 2 评论 -
利用Dataframe.read_html函数爬取表格型数据
在爬虫中我们经常需要爬取一些表格型数据,例如:针对这样的表格型数据,我们可以通过Pandas模块中的.read_html函数进行快速的抓取。在使用.read_html函数前需要满足两个条件:网页为静态网页表格为HTML 表格样式对于第一个条件,我们需要右键-查看源代码,并选取一个表格中的数据查找。如果在源代码中找到即可说明是静态网页格式对于第二个条件我们同样需要在源代码中查找table class确定是否有table表格样式。一般table类型的表格网页结构大致如下:<table原创 2020-09-12 17:52:24 · 2471 阅读 · 0 评论 -
京东商品评论爬虫(二)情感分析与词云图的制作
之前我们已经通过爬虫将京东的商品评论抓取下来,本文进行后续的操作原文章的地址:首先我们将数据从之前存入的数据库中取出来#从数据库中取出评论 数据def gettxt(): conn= sqlite3.connect("comments.db") sql='select comment from Comments_jd' cursor=conn.execute(sql)#执行查询语句,返回sqlite3.Cursor object text=cursor.fetchal原创 2020-06-07 16:48:26 · 2498 阅读 · 2 评论 -
python爬虫(三)饿了么商品与价格信息
在抓取动态页面的时候会出现一些特殊的情况导致获取json取得数据比较困难,这个时候只能使用其他的爬取自动化爬取方式,但是相对门槛比较高比较麻烦,所以对于一些特殊的情况可以采取一下半自动化的手段–保存html后进行爬虫。例如现在我想爬取一个饿了么的店铺里的商品信息和商品的价格1.首先登陆饿了么的网页端https://h5.ele.me/2.登陆之后我们可以很明显看到是手机端的页面,按F12进...原创 2020-04-28 21:46:43 · 4315 阅读 · 2 评论 -
selenium实现微博批量自动取关
著作权归作者所有。来源:公众号:Romi的杂货铺之前偶然登陆微博发现微博里有60多个关注的对象,然而都不是自己关注的人(万恶的微博 ????),然后又没有发现全选 取关的按钮,于是做了个自动帮助我们取关的脚本,顺便练习一下selenium库的使用~废话不多说,上代码~from selenium import webdriverimport timefrom selenium.webdrive...原创 2020-04-14 17:09:31 · 396 阅读 · 0 评论 -
b站每日排行榜爬虫
欢迎关注微信公众号:Romi的杂货铺回复b站每日排行榜爬虫获取全部源码爬取B站排行榜前100名的视频名称,作者和播放量,用到的主要有request库获取网页信息,用正则解析网页并使用openpyxl将信息保存在Excel中第一部分为请求网页获取信息部分,request库的基本用法def get_html_text(url,self_header): try: res...原创 2020-03-27 14:32:18 · 1423 阅读 · 0 评论 -
使用Python调用百度地图Api获取两地距离并打包为可执行程序
完整代码可以关注公众号:Romi的杂货铺1.获取百度api接口首先需要在百度的公众平台http://lbsyun.baidu.com/上点击控制台,如果是新用户的话需要进行注册和验证。注册和验证完毕后可以点击创建应用,填写应用名称等相关信息,应用类型根据需要进行设置,有浏览器端和服务器端两种。在这里特别说明的是,在IP白名单框里最好设置为:0.0.0.0/0,因为有时候把自己己的IP地址输进去...原创 2020-03-26 15:55:06 · 2143 阅读 · 2 评论 -
Python爬取京东商品评价(动态网页的爬取)
完整代码可以关注公众号:Romi的杂货铺首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID之后我们找到网页的源码并随便复制一句评论,在网页源码中查找,发现并没有找到评论内容,说明jd的评论页面并非静态网页AJAX:AJAX的全称是Asynchronous...原创 2020-03-26 15:52:00 · 1997 阅读 · 0 评论