python爬虫学习笔记
python爬虫学习笔记
中意灬
It's better to fight back than continue to be rotten @qq_978593353
展开
-
Python爬虫学以致用,嘿嘿
因为放假回到了老家,可能是在镇上的缘故,治安管的可能不是那么严,每天晚上都会有鬼火少年出来炸街,md,有时候半夜两三点突然炸一下街,声音贼大,但是吧,声音贼大,车速还没我跑的快天菩萨,真的烦死人了,一声砰,一下抖,家人们就说连续几天烦死了于是我就想写篇文章去我们当地的"情报网"(就是那种地方自己人吐槽或者互助的网),希望大家一起对这种行为控诉一波,也希望家里有鬼火少年的家长不要天天麻将馆007,多看看你孩子在街上放炮。于是我就写了篇文章去控述,但是吧,担心浏览量低了,大家看不到,于是就想原创 2022-02-07 20:49:59 · 2560 阅读 · 5 评论 -
运用Selenium Webdriver模块进行电影票房的爬取,并进行简单的绘图分析
文章目录1.Selenium介绍2.Selenium Webdriver的优缺点优点缺点3.Selenium Webdriver的一些基础操作4.准备步骤5.步骤获取数据并保存绘图最终的运行结果1.Selenium介绍首先我们先来了解一下什么是Selenium。Selenium是一个自动化测试工具,它模拟人的行为来操作浏览器,对于一些动态网页或者内容加密的网页,运用Selenium Webdriver则可以较好的实现内容的抓取。2.Selenium Webdriver的优缺点优点易于学习,抓取过原创 2022-01-17 19:03:57 · 1819 阅读 · 0 评论 -
Python爬虫之协程
何为协程,协程就是当程序遇见了IO(输入,输出)操作时,可以选择性的切换到其他任务上,在微观上它就是一个任务一个任务的切换(切换条件一般就是IO操作),在宏观上,我们看到的就是多任务一起执行。像下面个例子,是一个单任务同步函数。import timedef fun(): print('涂涂傻') time.sleep(3) print('涂涂真的傻')if __name__ == '__main__': fun()结果:涂涂傻(等三秒)涂涂真的傻其中的t原创 2022-01-12 00:17:29 · 2150 阅读 · 2 评论 -
python爬虫之多线程扒光北京新发地菜价
所实验网址:http://www.xinfadi.com.cn/priceDetail.html首先对网页进行分析:但是很显然,这些内容都不存在网页的源代码,所以这时候我们需要进行抓包然后我们观察这个的url和请求方式,可以发现这是post类型,于是我们去找到他要传入的参数我们通过点击下一页,具体看看哪些是需要传入的我们会发现,current是我们需要具体传入的参数,而他就是代表页数,而这个limit是表示每页出现的数据量只能有20条。我们分析完网页后,我们就可以开始编写程序了,那原创 2021-12-17 18:05:35 · 2032 阅读 · 2 评论 -
python爬取网抑云评论
本文是一篇学习笔记,整体过程来自于b站https://www.bilibili.com/video/BV1Wf4y1t7PC?p=48&spm_id_from=pageDriver我们首先对网抑云的网页进行分析,很显然它的评论不位于网页的源代码内,这时候我们就要通过抓包去找到它评论的url我们看到传入的data被加密了,所以我们需要获得未加密的参数,这时候我们的思路就有了1.找到未加密的参数2.想办法把参数进行加密(必须参考网易的逻辑)3.请求到网易,拿到评论信息我们点击原创 2021-12-05 20:26:36 · 245 阅读 · 0 评论 -
python爬虫之xpath解析
这里我们用xpath爬取猪八戒网的信息https://chongqing.zbj.com/search/f/?kw=python首先我们打开猪八戒网,随便搜索一个服务,得到下面界面然后我们对网页进行分析,我们先打开网页源代码,观察我们所要爬取的内容是否存在于网页源代码内可以看出我们需要的内容就存在于网页源代码内,这时候我们需要分析网页的层级结构。这是我们需要提取内容的所有供应商:通过以下方法就可以获得所有供应商的层级关系,后面获取具体内容的层级关系也是依次类推好了,我们上代码:#原创 2021-11-24 16:47:28 · 1031 阅读 · 2 评论 -
python爬虫之xpath入门
xpath 是在XML文档中搜索内容的一门语言,而html 是xml的一个子集首先我们需要先导入模块,在pycharm3.0版本后都自带了,如果没有自带就先自行下载from lxml import etree#导入etree模块,因为etree模块中才有xpath然后接下来将一些简单的用法,我们这里以一个简单的网页为模板举例: <html> <head> <meta charset='utf-8' />原创 2021-11-24 12:19:18 · 966 阅读 · 0 评论 -
爬虫之爬取图片(运用了bs4和正则查取)
我们以美图优优这个网站进行爬取(网址)https://m.umei.cc/bizhitupian/shoujibizhi/首先我们分析网页然后我们点开高清图片链接,跳转到一个新的页面,然后对新的页面进行网页分析然后我们可以开始编写代码了:# @Time:2021/11/2114:27# @Author:中意灬# @File:美图优优.py# @ps:tutu qqnum:2117472285#步骤: #1.通过主页面获取子链接 #2.通过子链接获取高清图片连接原创 2021-11-21 15:59:41 · 1014 阅读 · 0 评论 -
爬虫之用bs4解析数据
Beautiful Soup是将复杂HTML文档转换成一个复杂的树形结构步骤:拿到网页源代码用bs4进行解析数据,拿到自己想要的数据 解析数据:<1>.把页面源代码交给BeautifulSoup进行处理,生产bs对象<2>.从bs对象中查找数据find(标签,属性=值) 查找第一个,返回一个BeautifulSoup的标签对象find_all(标签,属性=值) 查找全部,返回一个BeautifulSoup的标签对象用csv保存数据所需要的一原创 2021-11-15 19:01:58 · 1587 阅读 · 0 评论 -
爬虫豆瓣top250代码
有点瑕疵,需要改进#1.获取网页源代码#2.解析数据,获取到自己想要的内容#3.保存数据import reimport timeimport requestsimport csvfor i in range(0,25): n=i*25 url='https://movie.douban.com/top250?start='+str(n) header={ "Cookie": 'bid=W9LftjwdnG0; douban-fav-rem原创 2021-11-13 16:07:30 · 1256 阅读 · 0 评论 -
re库入门
导入re库import rere.findall()# re.findall(<正则表达式>,<匹配内容>)#匹配字符串中的所有符合正则的内容,返回一个列表str=re.findall('.*?c语言','涂涂不喜欢c语言,因为涂涂c语言挂科了')print(str)运行结果:re.finditer()# re.finditer()#匹配所有字符串中所有到符合正则的内容,返回一个迭代器(match),从迭代器中拿到内容用.group()str=re.findi原创 2021-11-07 18:40:47 · 150 阅读 · 0 评论 -
Requests入门操作
导入requests库import requestsget方法url="https://www.baidu.com/"head={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36" }response=requests.get(url,headers=head) #原创 2021-11-07 17:59:44 · 145 阅读 · 0 评论 -
python爬虫之正则表达式
正则表达式正则语法:使用元字符进行排列组合用来匹配字符串 在线测试正则表达式https://tool.oschina.net/regex#元字符:具有固定含义的特殊符号常用元字符:. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线\s 匹配任意的空白符\d 匹配数字\n 匹配换行符\t 匹配制表符^ 匹配字符串的开始$ 匹配字符串的结尾\W 匹配非字母和数字和下划线的字符\S原创 2021-11-03 23:05:35 · 306 阅读 · 0 评论