python
Tippye
这个作者很懒,什么都没留下…
展开
-
python爬虫——动态加载数据处理
selenium安装环境安装pip install selenium安装浏览器驱动程序首先在这里下载驱动对应版本可以到这篇文章中找使用流程配置好环境后实例化一个浏览器对象编写操作代码发起请求:get(url)标签定位:find标签交互:send_keys('xxx')执行js程序:excute_script('jsCode')前进、后退:forward()、back()关闭浏览器:quit()from selenium import webdriverfrom原创 2020-12-10 09:24:57 · 250 阅读 · 0 评论 -
python爬虫——异步爬虫
方式多线程、多进程:不推荐好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。坏处:无法无限制的开启多线程或者多进程。线程池、进程池:适当使用好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。坏处:池中线程数量有上限。单线程+异步协程:推荐event_loop:事件循环,相当于一个无限循环,可以把一些函数注册到这个事件循环上,当满足条件时,函数会被循环执行。coroutine:协程对象,可以将协程对象注册到事件循环中,它会被原创 2020-12-02 21:37:17 · 265 阅读 · 0 评论 -
python爬虫----云打码与动态IP
云打码超级鹰这个虽说有点贵,但是其他云打码平台不知道为啥都没了按官方文档的步骤就可以接入使用动态IPgoubanjia这里有好多免费的ip,仅仅学习的话足够了关于ip的匿名度透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip匿名:服务器知道使用了代理,但是不知道真实ip高匿:服务器不知道使用了代理,更不知道真实ip...原创 2020-12-02 14:21:27 · 115 阅读 · 0 评论 -
python爬虫——数据解析
爬虫流程Created with Raphaël 2.2.0指定URL获取相应数据数据解析持久化存储数据解析解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行标签的定位标签或者标签对应的属性中存储的数据值进行提取(数据解析)正则解析使用正则表达式,利用字符串匹配筛选出所需要的内容例:ex = '<div class="thumb">.*?<img src="(.*?)"alt.*?</div>'# re是python中使用正则表达式的库原创 2020-12-02 14:08:57 · 87 阅读 · 0 评论 -
Python爬虫——requests篇
安装cmd中输入下面的命令进行安装pip install requests使用UA伪装为了让浏览器分不出是电脑爬虫访问的,可以进行UA伪装先定义一个字典,如下:headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}```这个字典先放在这原创 2020-12-01 23:34:00 · 88 阅读 · 0 评论 -
python创建并发布包 package
创建包包就是个放模块的文件夹包中需要放一个文件__init__.py然后创建自己的模块就行包的结构????package_name__init__.pymodule1.pymodule2.py为了让外部引用包时可以访问到包中的模块要在__init__.py中加入下面的这种代码from . import module1.pyfrom . import module2.pyfrom . 指明模块的位置. 就是当前目录下import 就是要被外部访问的模块的文件名..原创 2020-09-19 23:08:14 · 429 阅读 · 0 评论