爬虫技术
ssbttest
这个作者很懒,什么都没留下…
展开
-
亚马逊封店影响大,如何才能避免呢
今年5月以来亚马逊对刷单、刷评论等行为进行严厉打击,不少跨境电商企业的账号被封,包括帕拓逊、傲基、泽宝、有棵树等国内头部大卖家,并且相关动作仍在持续中。8月4日,通拓科技母公司华鼎股份发布了一则《关于公司重大事项的公告》,截至8月4日,通拓科技被禁售关闭店铺数共计54个, 涉嫌冻结资金4143万元人民币,占公司2020年年末货币资金的4.27%。那么这些刷单、刷评论的行为如何被亚马逊分析出来的呢,一般是通过两种方式,(1)刷单、刷评论的账号是相互关联的,只要一个账号确认是刷单,那么其曾经下单的店铺都会列入原创 2021-08-17 22:17:12 · 158 阅读 · 0 评论 -
如何在爬虫过程中精确控制ip的使用
在进行爬虫时,除了常见的不用登录就能爬取的网站,还有一类需要先登录的网站。比如豆瓣、知乎等,但是对于需要账号登陆的目标网站一般的限制都是比较严的,那么针对这样的问题有什么比较好的避免反爬限制策略呢?一般面对这样的情况,我们可以选择通过登录获取cookie然后再配合代理ip进行数据的获取。这里就我们着重的分享下如何在使用代理过程中精确的控制ip切换。列如我们访问的目标网站需要登录,获取数据两个请求在一个Ip下进行。这里我们就可以通过设置随机数来实现,tunnel = random.randint(1,100原创 2021-08-05 21:53:32 · 134 阅读 · 0 评论 -
python爬虫学习之电视剧弹幕的抓取
近期《你是我的荣耀》这部剧正在热播中,在首播当天收视率就上亿了,足以见得观众们对这部剧的一个期待程度。在连放了八集之后,这部剧目前也是好评满满,不少人都被杨洋和迪丽热巴的颜值所吸引了。小编也入坑了,看的简直不要太开心。最主要的是我一边看电视剧一边看弹幕,弹幕也是增加快乐的一种方式啊。这里说到弹幕,那么小编作为爬虫工作者,对这个就比较感兴趣了,今天我们就学习下python 爬取腾讯视频评论的实现步骤,帮助大家更好的理解和学习使用python爬虫,感兴趣的朋友可以了解下呀。这里和大家分享下爬虫的重点知识,因为原创 2021-07-30 21:40:20 · 580 阅读 · 0 评论 -
利用爬虫技术寻方便
作为一个爬虫工作者,那会这一技术在现实生活中我们可以为我们获取哪些方便呢?对我来说那就是我曾经用它安排过两次假期旅行,还搜索过一些回我老家的短途航班信息。这时就是 Python 大显身手的时候啦。首先是选择目标网站,这里我选择的是东方航空比较友好些,但是如果你你在短时间内同时读取太多页面的话还是会遇到一些阻碍的,比如封ip。这样的情况下只有挂上代理了,像接下来这样import org.apache.commons.httpclient.Credentials;import org.apache.com原创 2021-07-21 22:45:01 · 119 阅读 · 0 评论 -
通过爬虫获取失踪儿童信息
一个人,一辆摩托车,车后插着一面寻子旗帜,很多人通过电影《失孤》认识了郭刚堂。二十多年来,他一直在锲而不舍地做一件事——寻找被拐走的儿子郭新振。7月13日,公安部在北京召开发布会,介绍电影《失孤》原型拐卖案件侦破情况:电影中的被拐儿童原型郭新振已被公安机关找到,犯罪嫌疑人被警方抓获。看了整个事件的来龙去脉真的很感动,父母的爱真的很伟大。关于失踪儿童在我们国家依旧是一个很值得关注的群体,那么今天我们就通过爬虫来获取我们国家失踪儿童的数据,希望可以更好的帮助那些失踪的孩子早点回到父母的身边。首先我们使用的是原创 2021-07-13 16:46:51 · 279 阅读 · 0 评论 -
使用爬虫代理采集网站失败的解决方法
爬虫程序采集网站必须使用动态代理,才能避免出现网站访问频繁的限制,这是众所周知的。但是在具体采集网站的过程中,即使使用了动态代理依然会出现403、503或429的反爬错误,这是为什么呢?根据以往的经验,一般来说是因为以下几个原因造成的:1、动态User-Agent的修改爬虫程序采集网站,正常的HTTP请求都需要进行ua(User-Agent)优化,因为ua是浏览器标识,如果http请求没有ua,甚至有些爬虫程序主动标示为采集,那么目标网站拒绝采集的可能性很高2、控制单个代理IP的请求频率虽然爬虫程序原创 2021-07-09 23:41:54 · 366 阅读 · 0 评论