爬虫
阿宁呀
大数据,数据挖掘。
展开
-
【爬虫】十、Selenium
下载selenium后在下载浏览器驱动,把解压的浏览器驱动chromedriver放在python解析器所在的文件夹。功能:打开浏览器,像人一样操作,可以通过selenium提取网页上的信息。无头浏览器要先配置参数,即不需要打开浏览器直接爬。处理新弹出的浏览器页面。原创 2023-03-20 08:30:00 · 184 阅读 · 0 评论 -
【爬虫】九、综合案例之m3u8文件
视频网站常规处理方法:用户上传视频–>转码(处理视频)–>切片处理(把单个文件进行拆分,一般把拆分好的文件放到M3U8、txt、json的文本中),用户在拖动进度条时则进入到某个分片中。需要一个文件记录:1.视频播放顺序。2.视频存放路径。原创 2023-03-17 15:53:37 · 5319 阅读 · 0 评论 -
【爬虫】八、协程和多任务异步协程+爬取百度小说
一般情况下,当程序处于IO操作时(包括time.sleep()、requests.get()、input),线程处于阻塞状态。requests.get()同步的代码->在异步操作aiohttp中:pip install aiohttp。微观上是任务间的切换(切换条件一般为IO操作);宏观上是多任务一起执行,即多任务异步操作。在单线程条件下,协程指:当程序遇到IO操作时,可以选择切换执行别的任务。因为包在国外,网络连接慢,长时间连接不成功或下载不成功,就报错。在爬虫领域的应用,即模板。原创 2023-03-19 11:00:00 · 371 阅读 · 0 评论 -
【爬虫】七、多线程、异步爬虫
kwargs:表示调用对象的字典,kwargs={‘name’:‘egon’,‘age’:18}args:表示调用对象的位置参数元组,args=(1,2,‘egon’,)group: 线程组,目前还没有实现,库引用中提示必须是None;args/kwargs: 要传入方法的参数,必须是元组。target:表示调用对象,即子进程要执行的任务。group:参数未使用,值始终为None。target: 要执行的方法;线程启动时间由cpu定。name:为子进程的名称。name: 线程名;原创 2023-03-18 15:30:00 · 810 阅读 · 0 评论 -
【爬虫】六、综合案例之爬网易云音乐评论信息
pip install pycryptodomex #用Cryptodome.Cipher里的AES加密。所以要找的参数实际上是:params=>encText,encSecKey=>encSecKey。找到处理加密过程,即找window.asrsea(参数,…点栈元素,跳到sources,在光标处设置断点重新刷新。剩余三个参数可以看是什么值。需要找到加密的处理函数。原创 2023-03-17 11:48:48 · 1304 阅读 · 5 评论 -
【爬虫】五、数据解析之xpath解析+jsonpath解析
xpath是xml文档搜索中的语言,html是xml的一个子集,xpath通过节点的路径进行查找。安装xpath:pip install lxml。原创 2023-03-18 07:00:00 · 121 阅读 · 0 评论 -
【爬虫】四、数据解析之bs4
page = BeautifulSoup(resp.text,“html.parser”) #指定html解析器。1.把页面源代码交给BeautifulSoup进行处理,生产bs对象。安装bs4: pip install bs4。find_all(标签,属性=值)通过html标签获取到内容。find(标签,属性=值)2.从bs对象中查找数据。原创 2023-03-17 11:41:24 · 657 阅读 · 0 评论 -
【爬虫】三、数据解析之re解析正则表达式+爬取京东商城和电影天堂
即尽可能少的匹配内容。语法:使用元字符进行排列组合匹配字符串。优点:速度快、效率高、准确率高。元字符:具有固定含义的特殊符号。从超长字符串中提取相应的内容。量词:控制元字符出现的次数。即尽可能多的匹配内容。原创 2023-03-17 23:00:00 · 184 阅读 · 0 评论 -
【爬虫】二、Requests入门及高阶
基于服务端的 session 存储机制,再结合客户端的 Cookie 机制,就可以实现有状态的 Http 协议。默认情况下,针对每一个浏览器的请求,Servlet 容器都会分配一个 Session。cookie存储是有效期,当客户端存储的cookie失效后,服务端的session不会立即销毁,会有一个延时,服务端会定期清理无效session,不会造成无效数据占用存储空间的问题。(1)客户端第一次访问服务端的时候,服务端会针对这次请求创建一个会话,并生成一个唯一的 sessionID 来标注这个会话。原创 2023-03-17 11:40:16 · 584 阅读 · 0 评论 -
【爬虫】一、前置知识
2.客户端渲染:第一次请求只要html骨架,第二次请求数据,在客户端进行拼接展示。(在页面源代码中看不到数据)1.服务器渲染:在服务器端把数据和html整合在一起,统一返回给浏览器。1.UserAgent:请求载体的身份标识(用get还是post发送请求)3.cookie:本地字符串数据信息(用户登录信息,反爬cookie)1.cookie:本地字符串数据信息(用户登录信息,反爬cookie)2.Referer:防盗链(反爬中使用,请求是从哪个页面来的)爬虫中需要注意:反爬基本都是出现在请求头和响应头。原创 2023-03-17 10:56:42 · 688 阅读 · 0 评论