python
文章平均质量分 73
幸福的小猴子qiqi
这个作者很懒,什么都没留下…
展开
-
python数据清洗入门教程(完整版)
数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步。数据清洗的过程决定了数据分析的准确性。随着大数据的越来越普及,数据清洗是必备的技能之一,本教程将较为完整地介绍利用python进行数据清洗的整个过程。即适合零基础的小白也可作为数据清洗大佬的复习指南。文章较长,干货较多,建议大家先收藏后观看,希望对大家有所帮助。原创 2021-01-27 09:59:58 · 93606 阅读 · 16 评论 -
在scrapy框架中如何设置开放代理池达到反爬的目的
我们在随机爬取某个网站的时候,比如对网站发出成千上万次的请求,如果每次访问的ip都是一样的,就很容易被服务器识别出你是一个爬虫。因此在发送请求多了之后我们就要设置ip代理池来随机更换我们的ip地址,使服务器不那么容易去识别。那么如何在scrapy框架中如何设置ip代理池呢?事先声明:在阅读本文之前,要对python爬虫和scrapy框架有一定的了解!!!原创 2021-01-25 14:27:17 · 1231 阅读 · 2 评论 -
在scrapy框架中如何随机更换请求头达到反爬的目的
我们在随机爬取某个网站的时候,比如对网站发出成千上万次的请求,如果`user-agent`都是一样的,就很容易被服务器识别出你是一个爬虫。因此在发送请求多了之后我们就要随机更换我们的`user-agent`,使服务器不那么容易去识别。那么如何在scrapy框架中如何随机更换请求头呢?原创 2021-01-25 13:57:05 · 421 阅读 · 3 评论 -
CrawlSpider爬虫实战-猎云网爬虫(过程超详细)
CrawlSpider爬虫作用:可以定义规则,让Scrapy自动的去爬取我们想要的链接。而不必跟Spider类一样,手动的yield Request。创建:scrapy genspider -t crawl [爬虫名] [域名]提取的两个类:LinkExtrator:用来定义需要爬取的url规则。Rule:用来定义这个url爬取后的处理方式,比如是否需要跟进,是否需要执行回调函数等。猎云网爬虫1.需求:实现猎云网网站的文章数据爬虫。需要保存标题、发布时间、内容、原始url字段,然后异原创 2021-01-21 12:58:46 · 485 阅读 · 1 评论 -
不到10行代码轻松实现批量抠图(python实现)
这里我们利用remove这个抠图工具,网址:https://www.remove.bg/zh,进入网站后先登陆,登陆后找到自己的API 密钥(代码里会有用)在pycharm中新建一个项目,在下面建立一个文件夹把你想抠的图片放进去,我这里命名为image,新建一个py文件代码如下(在运行前需要安装removebg包,安装命令pip install removebg):from removebg import RemoveBgimport osrmbg = RemoveBg("UgyX4c3znRXY原创 2021-01-17 14:45:08 · 562 阅读 · 3 评论 -
轻松带你掌握Scrapy框架(以爬取古诗文网为例)
写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。安装Scrapy框架pip install scrapy。可能会出现问题:在ubuntu下要先使用以下命令安装依赖包:sudo apt-get insta原创 2021-01-16 10:14:05 · 1151 阅读 · 1 评论 -
多线程下载王者荣耀高清壁纸(过程超详细)
文章分为单线程和多线程两个部分,选择单线程一个一个下载速度会很慢,多线程下载可以明显提升速度。但先用单线程写出代码,再在此基础上改动成多线程,思路会更加清晰,对初学者也更加友好!单线程下载王者荣耀壁纸对界面的了解进入王者荣耀官网https://pvp.qq.com/在游戏资料下点击游戏壁纸进入壁纸界面下滑观察一共有页24页右键检查发现图片都在<div id =“Work_List_Container_267733”中,下面的每一个<div class="class="p_newher原创 2021-01-12 13:52:47 · 1268 阅读 · 1 评论 -
python—生产者消费者模型
python-生产者消费者模型生产者和消费者模式是多线程开发中经常见到的一种模式。生产者的线程专门用来生产一些数据,然后存放到一个中间的变量中。消费者再从这个中间的变量中取出数据进行消费。通过生产者和消费者模式,可以让代码达到高内聚低耦合的目标,程序分工更加明确,线程更加方便管理。下面分别展示Lock版本和 Condition版本的生产者和消费者模型(生产者只能生产10次)。Lock版本的生产者和消费者模式:import threadingimport randomimport timegMo原创 2021-01-12 09:56:51 · 371 阅读 · 0 评论