![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 54
程序员唐丁
本人从事数据挖掘,数据分析,爬虫相关工作,同时做过很多人工智能和安卓脚本的项目,后面不会不定期发布一些自己平时遇到的问题和解决办法。也会发布一些相关方向的学习教程。大家可以关注微信公众号“程序员唐丁”查看更多。
展开
-
爬虫之正则解析
一、什么是正则正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、爬虫上什么场景下用正则这个很难说,对于初学者或者一般的结构比较“规范”(也就是人家没想搞你)的网页数据,直接用XPath或者bs4就可以解析网页数据了,但是有时候爬虫你会发现数据不是在HTML中,也不是在json包中,而是在返回的js里。这个时候XPath或者bs4不能解决了,就只有采用正则了。当然,后期正则使用比较熟练的情况下,能正则就正则。因为正则入门原创 2021-08-16 20:53:26 · 773 阅读 · 0 评论 -
爬虫实战-疫情数据获取
前段时间南京疫情爆发,唐丁需要每天关注一下疫情数据,一想到还要打开app,然后翻到指定页面,还得查找对应城市的数据我就头疼。所以就写了一个爬虫程序。每天定时抓取江苏所有城市的疫情数据,然后将有新增病例的城市数据自动发到我的邮箱。感觉棒极了~~废话不多说,下面讲解一下爬取的过程:一、抓包获得数据接口本次数据来源于腾讯新闻经过分析,我找到了疫情数据返回的接口,红框部分对应我们需要查询的省份和城市。嗯,返回的数据还是json格式的,那解析过程就很简单了~~二、获取并解析数据唐丁将江苏所有的城市原创 2021-08-16 20:52:07 · 1735 阅读 · 0 评论 -
爬虫之js逆向(易车网实例)
前几天想对中国市场上所有汽车品牌的所有车型的配置参数做一个统计分析,但是苦于没有数据,因此想着用爬虫去获取相关数据。然后发现几个著名的汽车网站的数据也大同小异,所以最后锁定易车网平台来获取所有品牌旗下的所有车型的配置参数。然后在爬取过程中我发现配置参数的数据并不在网页源代码中,经过检查发现数据是访问一个后台API获取的。然而在我直接访问这个API链接时报了以下错误:然后经过一通分析与定位发现了需要传给后台校验的请求头参数是:"x-sign"和"x-timestamp"两个经过分析可以知道"x-tim原创 2021-06-12 23:41:18 · 1601 阅读 · 2 评论 -
爬虫-简介
一、什么是爬虫网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。简单来说,爬虫就是用来获取万维网上各类数据(图片、视频、文字等等)资源的程序。二、爬虫可以用来做什么很多人可能没有听说过爬虫技术,但一定都在生活中使用过爬虫技术的产品,比如大家经常使用的百度搜索、微信小程序搜索等。三、Python如何实现爬虫一般的爬虫主要分为三个步骤:获取数据,解析数据,保存或展示数据。其中获取数据一般使用requests库,解析数据使用re(正则)、Beautiful原创 2021-05-25 22:15:30 · 484 阅读 · 0 评论