python
Tippye
这个作者很懒,什么都没留下…
展开
-
python爬虫——动态加载数据处理
selenium安装 环境安装 pip install selenium 安装浏览器驱动程序 首先在这里下载驱动 对应版本可以到这篇文章中找 使用流程 配置好环境后 实例化一个浏览器对象 编写操作代码 发起请求:get(url) 标签定位:find 标签交互:send_keys('xxx') 执行js程序:excute_script('jsCode') 前进、后退:forward()、back() 关闭浏览器:quit() from selenium import webdriver from原创 2020-12-10 09:24:57 · 309 阅读 · 0 评论 -
python爬虫——异步爬虫
方式 多线程、多进程:不推荐 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 坏处:无法无限制的开启多线程或者多进程。 线程池、进程池:适当使用 好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。 坏处:池中线程数量有上限。 单线程+异步协程:推荐 event_loop:事件循环,相当于一个无限循环,可以把一些函数注册到这个事件循环上,当满足条件时,函数会被循环执行。 coroutine:协程对象,可以将协程对象注册到事件循环中,它会被原创 2020-12-02 21:37:17 · 275 阅读 · 0 评论 -
python爬虫----云打码与动态IP
云打码 超级鹰 这个虽说有点贵,但是其他云打码平台不知道为啥都没了 按官方文档的步骤就可以接入使用 动态IP goubanjia 这里有好多免费的ip,仅仅学习的话足够了 关于ip的匿名度 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip 匿名:服务器知道使用了代理,但是不知道真实ip 高匿:服务器不知道使用了代理,更不知道真实ip ...原创 2020-12-02 14:21:27 · 118 阅读 · 0 评论 -
python爬虫——数据解析
爬虫流程 Created with Raphaël 2.2.0指定URL获取相应数据数据解析持久化存储 数据解析 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 进行标签的定位 标签或者标签对应的属性中存储的数据值进行提取(数据解析) 正则解析 使用正则表达式,利用字符串匹配筛选出所需要的内容 例: ex = '<div class="thumb">.*?<img src="(.*?)"alt.*?</div>' # re是python中使用正则表达式的库原创 2020-12-02 14:08:57 · 118 阅读 · 0 评论 -
Python爬虫——requests篇
安装 cmd中输入下面的命令进行安装 pip install requests 使用 UA伪装 为了让浏览器分不出是电脑爬虫访问的,可以进行UA伪装 先定义一个字典,如下: headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' } ``` 这个字典先放在这原创 2020-12-01 23:34:00 · 103 阅读 · 0 评论 -
python创建并发布包 package
创建包 包就是个放模块的文件夹 包中需要放一个文件__init__.py 然后创建自己的模块就行 包的结构???? package_name __init__.py module1.py module2.py 为了让外部引用包时可以访问到包中的模块 要在__init__.py中加入下面的这种代码 from . import module1.py from . import module2.py from . 指明模块的位置 . 就是当前目录下 import 就是要被外部访问的模块的文件名 ..原创 2020-09-19 23:08:14 · 467 阅读 · 0 评论