CorGi_8456-CSDN博客

原创简谈异步爬虫aiohttp

之前涉及到的爬虫，都基本上使用的requests库进行爬取。但是request获取网站内容的话，是有相应时间的，要不然也不会设置timeout了。但是，响应时间内，程序也在等待，响应时间越长等待时间就相对变长。因为python的自身原因多线程就不做最优选了（但是我很喜欢用=）），多进程则是利用cpu的多核在同一时间内进行多个任务。因此就该引出一个概念——协程coroutine。

2022-08-19 17:51:46 1239 1

原创数据可视化matplotlib(一)---亚马逊销售飙升榜

数据可视化是数据分析的重要任务之一。之前有获取到亚马逊销售飙升榜的数据，但是排名只是按列表顺序排序，销售排名上升的幅度只有数字的变化，体现的不是很直观。所以使用python的实现对数据的可视化，能直观的看出来数据的对比和变化。............

2022-08-05 11:06:50 508

今天还是亚马逊。突然发现亚马逊深挖还是有很多东西可以水的。在英语语境里指的是。但是在亚马逊商城中，这个榜单就是过去的24小时中销量最高的产品榜单，而且每小时更新。我称之为是亚马逊的销售势力排行。从这个排行榜中的数据，能分析什么商品时下最热门，甚至能找到一点点未来市场走向的蛛丝马迹。（我瞎编的）虽然不是市场从业人员，但是把这些数据收集起来，做一个数据分析，还是有一点点必要的。...............

2022-07-27 17:50:47 1014

原创 Amazoncaptcha 95%成功率绕过亚马逊IP验证码

这次又来折腾亚马逊了。之前有介绍亚马逊的商品获取和评论获取。但是在批量获取和多次访问的情况下出现了需要验证码的情况当然，出现这种情况你是肯定获取不到数据的。但是，你离你想要的数据，真的很近了。所以本次的目的就是绕过这个验证码，获取验证码背后的数据。...

2022-07-22 16:45:37 2217

原创 Python中Scrapy框架的代理使用

scrapy框架，熟悉python爬虫的朋友们应该知道甚至有所了解，scrapy是一个爬虫框架，模块化程度高，可拓展性强

2022-07-12 17:00:52 2678 1

原创【电商系列？】日本某美食攻略网站数据获取及Json文件保存

今天上班摸鱼的时候发现了一个比较新鲜的网站，日本的大众点评：食べログ左边呢是各个店家的基本信息，右边也集成了地图。反正疫情也出不去，这个网站的地图卫星图像也能云旅游，而左边的这些店铺的数据呢，就可以拿下来给未来做做旅游攻略了。一、网站分析进入首页，可以看到各个地区的分类，而下面是按食品的分类，人数等等。这次就按地区来获取数据。随便进入一个地区，点开地区排行榜，就进入列表页了，点击列表就...

2022-05-16 17:49:20 299

原创【电商系列】Python之Ebay超值特价的获取

好久没有更新了。最近看了下数据好像电商平台的文章点击量还是蛮高的，那我就投其所好，水一篇Ebay的数据获取！ebay的超值特惠价是分好几个板块的，这里我就直接用智能手机这一分区做一个演示。其实它的每一个板块都是用class为ebayui-dne-item-pattern-card的div组成的，每一个最后都有一个选购全部的链接，倒是后有需求的朋友可以自行for循环即可。一、请求分析点击智能手机分区的选购全部。...

2022-05-07 17:25:26 361

原创【电商系列】shopee的数据获取

在Amazon，Aliexpress之后，又一个海外电商出现在我的视野里——shopee，在东南亚很火的电商平台。这战略布局都到南美跟欧洲了这网站有意思的是啊，每个国家的商品虽然大同小异，但是也能凸显各个国家的风格的，比如印度的shopee，一股阿三的气息。对味儿了一、请求分析：地址：https://xxxxxx.tw/daily_discover?pageNumber=1，这次就以台湾站为例。 ...

2022-04-22 16:38:42 3510

原创 Python获取Amazon限时特惠信息

又来折腾亚马逊了......从最近的几次爬取亚马逊的情况来看，数据获取难度还算是一般，恶心的就在数据处理方面，一堆的JS，HTML等等罗列在一起。不怎么费脑子，但是费眼。正文开始。一、请求分析特惠信息页面：/gp/goldbox 照例，打开开发者模式，清除cookie，然后再次请求：就直接查看这个当前页的请求，预览的时候发现并没有数据：为了避嫌该打码的地方都打了，...

2022-04-21 17:56:32 423

原创【FaceBook系列完结篇】获取FaceBook搜索结果

在我写这篇文章的时候，我的Facebook账号已经封了。真的给我封了，还在申诉中原因就是我没有及时换cookie而且操作的确实有些频繁，这个FaceBook系列只能草草收尾，作为我的一个遗憾了。我哭了，我装的虽然我的账户被封了，但是我还有facebook_scraper啊，还不用登陆账户，也不需要cookie。真香！（香个P，还是要的，还好提前测试好了有素材）账号被封了也没有其他的账号，导致没有素材图，将就看吧各位，对不住了。...

2022-04-20 17:38:18 1433 3

原创【FaceBook系列二】再见了，Facebook_scraper？Python的session请求获取Facebook的群组数据。

书接上回，上次说了分析一下Facebook_scraper源码的其他方法，其中的一个方法叫做get_group_info，是专门获取组群信息的一个方法：而调用这个方法，只需要把相关组群的id传入方法就可以了，之后它会自动拼凑请求的链接获取数据。但是，我顺藤摸瓜，发现了一点有趣的东西。get_group_info的工作原理首先，传入小组的id，拼凑好url，进入到self.get的方法内。进入到get方法之后，又进行了一次...

2022-04-06 15:43:41 1417

原创复盘：FaceBook的坑、总结、疑问【FaceBook系列番外篇】

昨天写了Facebook_scraper的文章。在用这个包之前，尝试了很多的方法，但是不是请求失败就是获取的内容有问题。所以接下来我要把踩过的坑和我自己的问题总结一下，相当于我的个人笔记了。1、splashsplash请求的时候出现了登录的问题，跟浏览器直接打开网页一样，直接跳转登录界面。进因为没有深究splash的cookie登陆问题这个方法就放弃了。之后splash的cookie登录方法还可以接着尝试......2、selenium...

2022-04-01 16:06:39 659 1

原创 Facebook_scraper:Python获取FB用户的公开发帖【FaceBook系列一】

明辨是非，勿迷失自我

2022-03-31 17:43:15 4407 3

原创还是比Selenium好用？Python使用Splash访问谷歌获取相应内容。

上次讲了一下playwright获取网站的数据。但是吧这个playwright，他终究是一个自动化调试工具，多多少少会占一点本地的资源。这次的Splash可不一样了，他是部署在服务器上的，可以把负载的资源放在一个甚至多个服务器上，实现在服务器上将想要请求的网站，请求加渲染，把最后的HTML返回给你，让你解析数据。一、Splash和Splash配置Splash是一个JavaScript的渲染服务，这是一款带有HTTP API的轻量级web浏览器，同时...

2022-03-24 17:13:26 2567 1

原创比Selenium好用？Python使用playwright获取S站在线游戏排名

不懂，我什么都不知道。

2022-03-10 16:43:56 10629 2

原创 Python多进程——进程池的开启和多进程操作同一个List

目标网站数据量多，想赶时间多获取点东西？数据库大批量的数据需要操作？单纯的想要节省时间，早早下班？ ............肯定会有人说【多线程】。Python的多线程为了数据安全设置了GIL全局解释器锁，而Python的多线程是靠并发的方式实现的，即Python只会在一个进程里永远执行一个线程。这就导致Python多线程的多线程效率低下。举个例子，这就相当于一个人在左右横跳的吃两包薯片。只不过这个人啊，他速度很快，只要左右横跳的速度足够快，他的残影就像两个人...

2022-03-07 11:51:56 3720

原创使用Python获取国际版淘宝AliExpress的商品信息

AliExpress全球速卖通，又称国际版淘宝，是一款面向海外的购物网站。之前有获取过Amazon的信息，偶然间发现了这个网站，所以今天看看这个国际版淘宝上面有没有我想要的东西。不知道这上面能不能买到原价的XboxSerisX网站分析为了找到上面有没有原价的Xbox，首先在首页，搜一下PS5 ，再查看一下请求：嗯，很直白的get请求，所有的参数链接上都写得清清楚楚。下面尝试一下翻页。点击下一...

2022-03-01 20:05:01 1322 2

原创 Go语言学习笔记：Http请求--Gorequest使用

最近几天部署代理池的时候，用Python写了requests请求测试IP地址检测连通性的脚本。但是发现了一个问题，requests.get带代理请求有时候请求不通。我初步认为代理的问题，但是之后我用了curl请求发现代理是正常的，用Go写了测试发现还是正常的。难道是requests的问题？目前不知道是什么原因，之后我用Go写了代理的测试，由此我发现了一个Go语言比较好用的Http请求的包——GorequestGo语言中net/http的代理请求 net/http请求...

2022-02-26 15:31:07 6658

原创利用Python获取某游戏网站热销商品并用pands进行Excel数据存储

不知道，不明白，不敢说

2022-02-15 16:51:59 3273

原创基于Python通过cookie对某芯片网站信息的获取

T网站的信息获取。

2022-01-25 15:54:09 1792 2

原创 Go语言接口interface学习笔记.续

一个夹带私货的笔记

2022-01-24 17:11:47 197

原创 Go语言接口interface学习笔记

前言最近在学习Go语言，看到了接口。因为之前从事的Python，提倡的是面向对象的编程。而Go语言有些不同，Go提倡的是面向对象编程，所以Go语言的接口就尤为重要。本人刚学习Go语言不久，想把自己对接口的一些理解写出来，如果有错误或者更好的理解方法，请大佬指正。一、什么是接口接口是一种抽象的类型，是代码中方法的集合。接口就像是定义了方法的行为准则，不管你是什么类型，只管你能实现什么。【假如你“呱呱”叫，那你就是鸭子(?)】二、接口的实现...

2022-01-22 14:36:26 371

原创基于Python获取亚马逊的评论

上次亚马逊的商品信息都获取到了，自然要看一下评论的部分。用户的评论能直观的反映当前商品值不值得购买，亚马逊的评分信息也能获取到做一个评分的权重。亚马逊的评论区由用户ID，评分及评论标题，地区时间，评论正文这几个部分组成，本次获取的内容就是这些。测试链接：https://www.amazon.it/product-reviews/B08GHGTGQ2/ref=cm_cr_arp_d_paging_btm_14?ie=UTF8&pageNumber=14&a...

2022-01-19 15:16:49 4189 13

原创用Python获取Amazon亚马逊的商品信息

1.首先获取亚马逊列表页的信息以视频游戏区为例：获取列表内能获取到的商品信息，如商品名，详情链接，进一步获取其他内容。用requests.get()获取网页内容，xpath选取相关标签的内容：import requestsfrom parsel import Selectorfrom urllib.parse import urljoinspiderurl = 'https://www.amazon.com/s?i=videogames-intl-ship'headers =

2022-01-18 16:26:23 5029

CorGi_8456的博客