- 博客(100)
- 收藏
- 关注
原创 Python爬虫核心模块urllib的学习
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-10-25 16:58:56
830
原创 Python爬虫(二十四)_selenium案例:执行javascript脚本
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-10-25 16:56:36
1001
原创 Python:如何在一个月内学会爬取大规模数据
*Python有很多应用的方向,比如后台开发、web开发、科学计算等等,但爬虫对于初学者而言更友好,原理简单,几行代码就能实现基本的爬虫,学习的过程更加平滑,你能体会更大的成就感。如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易上手。这样下来基本套路都差不多,当然唯一麻烦的是,在具体的问题中,如何找到具体需要的那部分学习资源、如何筛选和甄别,是很多初学者面临的一个大问题。
2023-10-11 15:36:42
1043
原创 Python爬虫(二十三)_selenium案例:动态模拟页面点击
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-10-11 15:34:05
1901
原创 Python爬虫(二十二)_selenium案例:模拟登陆豆瓣
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-10-07 15:48:26
1181
原创 Python爬虫(二十一)_Selenium与PhantomJS
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-09-21 07:00:00
1251
原创 Python爬虫(二十)_动态爬取影评信息
分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!!1)Python所有方向的学习路线(新版)总结的Python爬虫和数据分析等各个方向应该学习的技术栈。比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。(2)Python学习视频。
2023-09-16 07:00:00
223
原创 Python爬虫(十九)_动态HTML介绍
比如页面上的按钮只有当用户移动鼠标之后才出现,背景色可能每次点击都会改变,或者用一个Ajax请求触发页面加载一段内容,网页是否属于DHTML,关键要看有没有用JavaScript控制HTML和CSS元素。如果提交表单之后,或从服务器获取信息之后,网站的页面不需要重新刷新,那么你访问的网站就在用Ajax技术。它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。jQuery是一个非常常见的库,70%最流行的网站(约200万)和约30%的其他网站(约2亿)都在使用。
2023-09-12 07:00:00
214
原创 Python爬虫(十八)_多线程糗事百科案例
对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,建议使用队列。Queue是python中的标准库,可以直接。队列时线程间最常用的交互数据的形式。
2023-09-07 07:00:00
132
原创 Python爬虫(十七)_糗事百科案例
爬取糗事百科段子,假设页面的URL是: http://www.qiushibaike.com/8hr/page/1。
2023-09-01 07:00:00
415
原创 Python爬虫(十六)_JSON模块与JsonPath
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它是的人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python2.7中自带了JSON模块,直接就可以使用了。
2023-08-30 07:00:00
399
原创 Python爬虫(十五)_案例:使用bs4的爬虫
本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南。
2023-08-25 07:00:00
201
原创 Python爬虫(十四)_BeautifulSoup4 解析器
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。大部门时候,可以用它当做Tag对象,是一个特殊的Tag,我们可以分别获取它的类型,名称,以及属性来感受一下。
2023-08-22 07:00:00
789
原创 Python爬虫(十二)_XPath与lxml类库
XML指可扩展标记语言(Extensible Markup Language)XML是一种标记语言,很类似HTMLXML的设计宗旨是传输数据,而非显示数据。XML的标签需要我们自行定义。XML被设计为具有自我描述性。XML是W3C的推荐标准。XPath(XML Path Language)是一门在XML文档中查找信息的语言,可用来在XML中对元素和属性进行遍历。
2023-08-15 07:00:00
485
原创 Python爬虫(十一)_案例:使用正则表达式的爬虫
本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html这样我们的url规律找到了,要想爬取所有的段子,只需要修改一个参数即可。我们就开始一步一步将所有的段子爬取下来吧。
2023-08-14 07:00:00
708
原创 Python爬虫(十)_正则表达式
正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一些过滤逻辑。给定的字符串是否符合正则表达式的过滤逻辑(“匹配”)通过正则表达式,从文本字符串中获取到我们想要的特定部分(“过滤”)
2023-08-11 07:00:00
893
原创 Python爬虫(八)_Requests的使用
虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTP for Humans",说明使用更简单方便。Requests唯一的一个非转基因的Python HTTP库,人类可以安全享用Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。
2023-08-09 07:00:00
874
原创 python爬虫(七)_urllib2:urlerror和httperror
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。不能处理,会发出一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。
2023-08-08 07:00:00
283
原创 python爬虫(六)_urllib2:handle处理器和自定义opener
构建一个HTTPHandler处理器#调用urllib2 . build_opener() 方法,创建支持处理 HTTP 请求的openeropener = urllib2 . build_opener(http_handler) #构建Request请求request = urllib2 . Request("http://www.baidu.com") #调用自定义的opener对象的open() 方法,发送request请求。
2023-08-04 06:45:00
1046
原创 python爬虫(五)_urllib2:Get请求和Post请求
本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南。
2023-08-03 06:00:00
1264
原创 python爬虫(三)_HTTP的请求和响应
一般分块发送的资源都是服务器动态生成的,在发送时还不知道发送资源的大小,所以采用分块发送,每一块都是独立的,独立的块都能表示自己的长度,最后一块是0长度的,当客户端读到这个0长度的块时,就可以确定资源已经传输完了。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。http协议中发送的时间都是GMT,这主要是解决在互联网上,不同时区在相互请求资源的时候,时间混乱问题。
2023-08-01 06:45:00
860
原创 Python爬虫Scrapy(二)_入门案例
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。:爬取的URL元祖/列表。: 这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。
2023-07-31 07:00:00
826
原创 python爬虫(一)_爬虫原理和数据抓取
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。但是搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容,如标注为。的链接,或者是Robots协议。
2023-07-29 06:45:00
702
原创 Python高效编程技巧
而在字典表的例子里,我们创建了一个key是不重复的1到10之间的整数,value是布尔型,用来指示key是否是偶数。包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
2023-07-28 06:45:00
85
原创 常见排序算法-Python实现
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。 python 32行。 python 60行。 python 19行。
2023-07-27 07:00:00
108
原创 python的with语句,超级强大
紧跟with后面的语句被求值后,返回对象的__enter__()方法被调用,这个方法的返回值将被赋值给as后面的变量。正如例子所示,异常抛出时,与之关联的type,value和stack trace传给__exit__()方法,因此抛出的ZeroDivisionError异常被打印出来了。因此,Python的with语句是提供一个有效的机制,让代码更简练,同时在异常产生时,清理工作更简单。这没有任何关系,只要紧跟with后面的语句所返回的对象有__enter__()和__exit__()方法即可。
2023-07-24 06:00:00
78
原创 python try/except/finally
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。else作用:没有else语句,当执行完try语句后,无法知道是没有发生异常,还是发生了异常并被处理过了。
2023-07-22 07:00:00
200
原创 python sorted函数
cmp(e1, e2) 是带两个参数的比较函数, 返回值: 负数: e1 < e2, 0: e1 == e2, 正数: e1 > e2. 默认为 None, 即用内建的比较函数. key 是带一个参数的函数, 用来为每个元素提取比较值. 默认为 None, 即直接比较每个元素. 通常, key 和 reverse 比 cmp 快很多, 因为对每个元素它们只处理一次;关键字: python列表排序 python字典排序 sorted List的元素可以是各种东西,字符串,字典,自己定义的类等。
2023-07-21 13:43:49
278
原创 python大小写转换函数
判断大小写 Python提供了isupper(),islower(),istitle()方法用来判断字符串的大小写。注意的是: 1. 没有提供 iscapitalize()方法,下面我们会自己实现,至于为什么Python没有为我们实现,就不得而知了。2. 如果对空字符串使用isupper(),islower(),istitle(),返回的结果都为False。用法:str = ‘mars is VEry sliM and cLever!用法: str = ‘marsggbo’结果:MARSGGBO。
2023-07-20 08:30:00
1333
原创 python 处理json
1、dumps:将python中的 字典 转换为 字符串。4、load:把文件打开,并把字符串变换为数据类型。2、loads: 将 字符串 转换为 字典。3、dump: 将数据写入json文件中。5、遍历key value。
2023-07-20 06:45:00
66
原创 Python 线程调用
启动线程 t1.start() t2.start() import threading,time并发类的继承测试实现并发串行执行命令实现主线程等待子线程执行完毕后在往下执行import threading,time守护进程 守护线程:依赖于主线程存在的,为主线程工作。功能:设置成守护线程后,主线程关闭,守护线程也连带关闭。使用场景:socketserver 每一个链接过来,socketserver就会启动一 个线程,当服务端关闭时,需要关闭其他线程,就可以用到守护线程,关闭。
2023-07-19 06:30:00
895
原创 Python模块基础
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。自定义模块:如果你自己写一个py文件,在文件内写入一堆函数,则它被称为自定义模块,即使用python编写的.py文件。
2023-07-18 13:53:41
272
原创 深入解析Python文件操作:打开文件处理的大门
在Python中,文件操作是一项常见且重要的任务。通过文件操作,我们可以读取文件内容、写入新的数据以及对文件进行其他的操作。本文将介绍Python中的文件操作,包括打开文件、读取文件、写入文件和关闭文件等基本操作,以及一些常用的文件处理技巧和最佳实践。
2023-07-14 06:45:00
415
原创 超速Python编程:利用缓存加速你的应用程序
cachetools是一个功能强大的缓存库,提供了多种缓存策略的实现,包括LRU、LFU(Least Frequently Used)、FIFO(First In, First Out)等。缓存的工作原理是将计算结果与对应的输入参数关联起来,并存储在缓存中。当下次使用相同的参数进行计算时,首先检查缓存中是否存在对应的结果,如果存在,则直接返回缓存中的结果,而不必重新计算。缓存是一种将计算结果临时存储起来的技术,以便在后续相同或类似的请求中直接使用该结果,而不必重新计算。
2023-07-13 06:45:00
469
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人