自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 简谈异步爬虫aiohttp

之前涉及到的爬虫,都基本上使用的requests库进行爬取。但是request获取网站内容的话,是有相应时间的,要不然也不会设置timeout了。但是,响应时间内,程序也在等待,响应时间越长等待时间就相对变长。因为python的自身原因多线程就不做最优选了(但是我很喜欢用=)),多进程则是利用cpu的多核在同一时间内进行多个任务。因此就该引出一个概念——协程coroutine。

2022-08-19 17:51:46 1239 1

原创 数据可视化matplotlib(一)---亚马逊销售飙升榜

数据可视化是数据分析的重要任务之一。之前有获取到亚马逊销售飙升榜的数据,但是排名只是按列表顺序排序,销售排名上升的幅度只有数字的变化,体现的不是很直观。所以使用python的实现对数据的可视化,能直观的看出来数据的对比和变化。............

2022-08-05 11:06:50 508

原创 亚马逊Movers & Shakers榜单获取

今天还是亚马逊。突然发现亚马逊深挖还是有很多东西可以水的。在英语语境里指的是。但是在亚马逊商城中,这个榜单就是过去的24小时中销量最高的产品榜单,而且每小时更新。我称之为是亚马逊的销售势力排行。从这个排行榜中的数据,能分析什么商品时下最热门,甚至能找到一点点未来市场走向的蛛丝马迹。(我瞎编的)虽然不是市场从业人员,但是把这些数据收集起来,做一个数据分析,还是有一点点必要的。...............

2022-07-27 17:50:47 1014

原创 Amazoncaptcha 95%成功率绕过亚马逊IP验证码

这次又来折腾亚马逊了。之前有介绍亚马逊的商品获取和评论获取。但是在批量获取和多次访问的情况下出现了需要验证码的情况当然,出现这种情况你是肯定获取不到数据的。但是,你离你想要的数据,真的很近了。所以本次的目的就是绕过这个验证码,获取验证码背后的数据。...

2022-07-22 16:45:37 2217

原创 Python中Scrapy框架的代理使用

scrapy框架,熟悉python爬虫的朋友们应该知道甚至有所了解,scrapy是一个爬虫框架,模块化程度高,可拓展性强

2022-07-12 17:00:52 2678 1

原创 【电商系列?】日本某美食攻略网站数据获取及Json文件保存

今天上班摸鱼的时候发现了一个比较新鲜的网站,日本的大众点评:食べログ左边呢是各个店家的基本信息,右边也集成了地图 。 反正疫情也出不去,这个网站的地图卫星图像也能云旅游,而左边的这些店铺的数据呢,就可以拿下来给未来做做旅游攻略了。一、网站分析进入首页,可以看到各个地区的分类,而下面是按食品的分类,人数等等。这次就按地区来获取数据。随便进入一个地区,点开地区排行榜,就进入列表页了,点击列表就...

2022-05-16 17:49:20 299

原创 【电商系列】Python之Ebay超值特价的获取

好久没有更新了。最近看了下数据好像电商平台的文章点击量还是蛮高的,那我就投其所好,水一篇Ebay的数据获取!ebay的超值特惠价是分好几个板块的,这里我就直接用智能手机这一分区做一个演示。其实它的每一个板块都是用class为ebayui-dne-item-pattern-card的div组成的,每一个最后都有一个选购全部的链接,倒是后有需求的朋友可以自行for循环即可。一、请求分析 点击智能手机分区的选购全部。...

2022-05-07 17:25:26 361

原创 【电商系列】shopee的数据获取

在Amazon,Aliexpress之后,又一个海外电商出现在我的视野里——shopee,在东南亚很火的电商平台。​这战略布局都到南美跟欧洲了这网站有意思的是啊,每个国家的商品虽然大同小异,但是也能凸显各个国家的风格的,比如印度的shopee,一股阿三的气息。​对味儿了一、请求分析: 地址:https://xxxxxx.tw/daily_discover?pageNumber=1,这次就以台湾站为例。 ...

2022-04-22 16:38:42 3510

原创 Python获取Amazon限时特惠信息

又来折腾亚马逊了......从最近的几次爬取亚马逊的情况来看,数据获取难度还算是一般,恶心的就在数据处理方面,一堆的JS,HTML等等罗列在一起。不怎么费脑子,但是费眼。正文开始。一、请求分析特惠信息页面:/gp/goldbox 照例,打开开发者模式,清除cookie,然后再次请求:就直接查看这个当前页的请求,预览的时候发现并没有数据:为了避嫌该打码的地方都打了,...

2022-04-21 17:56:32 423

原创 【FaceBook系列完结篇】获取FaceBook搜索结果

在我写这篇文章的时候,我的Facebook账号已经封了。真的给我封了,还在申诉中原因就是我没有及时换cookie而且操作的确实有些频繁,这个FaceBook系列只能草草收尾,作为我的一个遗憾了。我哭了,我装的虽然我的账户被封了,但是我还有facebook_scraper啊,还不用登陆账户,也不需要cookie。真香!(香个P,还是要的,还好提前测试好了有素材)账号被封了也没有其他的账号,导致没有素材图,将就看吧各位,对不住了。...

2022-04-20 17:38:18 1433 3

原创 【FaceBook系列二】再见了,Facebook_scraper?Python的session请求获取Facebook的群组数据。

书接上回,上次说了分析一下Facebook_scraper源码的其他方法,其中的一个方法叫做get_group_info,是专门获取组群信息的一个方法:而调用这个方法,只需要把相关组群的id传入方法就可以了,之后它会自动拼凑请求的链接获取数据。但是,我顺藤摸瓜,发现了一点有趣的东西。get_group_info的工作原理 首先,传入小组的id,拼凑好url,进入到self.get的方法内。进入到get方法之后,又进行了一次...

2022-04-06 15:43:41 1417

原创 复盘:FaceBook的坑、总结、疑问【FaceBook系列番外篇】

昨天写了Facebook_scraper的文章。在用这个包之前,尝试了很多的方法,但是不是请求失败就是获取的内容有问题。所以接下来我要把踩过的坑和我自己的问题总结一下,相当于我的个人笔记了。1、splashsplash请求的时候出现了登录的问题,跟浏览器直接打开网页一样,直接跳转登录界面。进因为没有深究splash的cookie登陆问题这个方法就放弃了。之后splash的cookie登录方法还可以接着尝试......2、selenium...

2022-04-01 16:06:39 659 1

原创 Facebook_scraper:Python获取FB用户的公开发帖【FaceBook系列 一】

明辨是非,勿迷失自我

2022-03-31 17:43:15 4407 3

原创 还是比Selenium好用?Python使用Splash访问谷歌获取相应内容。

上次讲了一下playwright获取网站的数据。但是吧这个playwright,他终究是一个自动化调试工具,多多少少会占一点本地的资源。这次的Splash可不一样了,他是部署在服务器上的,可以把负载的资源放在一个甚至多个服务器上,实现在服务器上将想要请求的网站,请求加渲染,把最后的HTML返回给你,让你解析数据。一、Splash和Splash配置Splash是一个JavaScript的渲染服务,这是一款带有HTTP API的轻量级web浏览器,同时...

2022-03-24 17:13:26 2567 1

原创 比Selenium好用?Python使用playwright获取S站在线游戏排名

不懂,我什么都不知道。

2022-03-10 16:43:56 10629 2

原创 Python多进程——进程池的开启和多进程操作同一个List

目标网站数据量多,想赶时间多获取点东西? 数据库大批量的数据需要操作? 单纯的想要节省时间,早早下班? ............肯定会有人说【多线程】。Python的多线程为了数据安全设置了GIL全局解释器锁,而Python的多线程是靠并发的方式实现的,即Python只会在一个进程里永远执行一个线程。 这就导致Python多线程的多线程效率低下。举个例子,这就相当于一个人在左右横跳的吃两包薯片。只不过这个人啊,他速度很快,只要左右横跳的速度足够快,他的残影就像两个人...

2022-03-07 11:51:56 3720

原创 使用Python获取国际版淘宝AliExpress的商品信息

AliExpress全球速卖通,又称国际版淘宝,是一款面向海外的购物网站。之前有获取过Amazon的信息,偶然间发现了这个网站,所以今天看看这个国际版淘宝上面有没有我想要的东西。不知道这上面能不能买到原价的XboxSerisX网站分析为了找到上面有没有原价的Xbox,首先在首页,搜一下PS5 ,再查看一下请求:嗯,很直白的get请求,所有的参数链接上都写得清清楚楚。下面尝试一下翻页。 点击下一...

2022-03-01 20:05:01 1322 2

原创 Go语言学习笔记:Http请求--Gorequest使用

最近几天部署代理池的时候,用Python写了requests请求测试IP地址检测连通性的脚本。但是发现了一个问题,requests.get带代理请求有时候请求不通。我初步认为代理的问题,但是之后我用了curl请求发现代理是正常的,用Go写了测试发现还是正常的。难道是requests的问题?目前不知道是什么原因,之后我用Go写了代理的测试,由此我发现了一个Go语言比较好用的Http请求的包——GorequestGo语言中net/http的代理请求 net/http请求...

2022-02-26 15:31:07 6658

原创 利用Python获取某游戏网站热销商品并用pands进行Excel数据存储

不知道,不明白,不敢说

2022-02-15 16:51:59 3273

原创 基于Python通过cookie对某芯片网站信息的获取

T网站的信息获取。

2022-01-25 15:54:09 1792 2

原创 Go语言接口interface学习笔记.续

一个夹带私货的笔记

2022-01-24 17:11:47 197

原创 Go语言接口interface学习笔记

前言最近在学习Go语言,看到了接口。因为之前从事的Python,提倡的是面向对象的编程。而Go语言有些不同,Go提倡的是面向对象编程,所以Go语言的接口就尤为重要。本人刚学习Go语言不久,想把自己对接口的一些理解写出来,如果有错误或者更好的理解方法,请大佬指正。一、什么是接口接口是一种抽象的类型,是代码中方法的集合。接口就像是定义了方法的行为准则,不管你是什么类型,只管你能实现什么。【假如你“呱呱”叫,那你就是鸭子(?)】二、接口的实现...

2022-01-22 14:36:26 371

原创 基于Python获取亚马逊的评论

上次亚马逊的商品信息都获取到了,自然要看一下评论的部分。用户的评论能直观的反映当前商品值不值得购买,亚马逊的评分信息也能获取到做一个评分的权重。亚马逊的评论区由用户ID,评分及评论标题,地区时间,评论正文这几个部分组成,本次获取的内容就是这些。测试链接:https://www.amazon.it/product-reviews/B08GHGTGQ2/ref=cm_cr_arp_d_paging_btm_14?ie=UTF8&pageNumber=14&a...

2022-01-19 15:16:49 4189 13

原创 用Python获取Amazon亚马逊的商品信息

1.首先获取亚马逊列表页的信息以视频游戏区为例:获取列表内能获取到的商品信息,如商品名,详情链接,进一步获取其他内容。用requests.get()获取网页内容,xpath选取相关标签的内容:import requestsfrom parsel import Selectorfrom urllib.parse import urljoinspiderurl = 'https://www.amazon.com/s?i=videogames-intl-ship'headers =

2022-01-18 16:26:23 5029

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除