python爬虫
文章平均质量分 92
记录学习爬虫的相关
python实验室
独学而无友,则孤陋寡闻
展开
-
scrapy启动分析,在开始爬之前都做了什么
这是我重新学习scrapy的分享,最近开始用scrapy框架蛮顺手,本着研究的想法,想对scrapy如何组织有点兴趣,做了以下记录,用来分析scrapy启动流程,深入代码去看如何组织起来的。下图显示了一个常见的启动场景,划线的地方都是些关键信息。比如scrapy版本,用了什么中间件,启动引擎的信息,开始爬虫的信息都有。那么我们要重哪里开始?scrapy流程图与原理scrapy文档中有一句话:Remember that Scrapy is built on top of the Twisted asy原创 2021-01-04 22:31:27 · 276 阅读 · 0 评论 -
python入门书籍推荐,看这篇文章就够,请!
python入门书籍推荐,看这篇文章就够,请!事实上,有关python的书籍很多很多,就当当网就有50000件和python有关的书籍,我特地去了当地的新华书店,蹲了大半天,回来给大家推荐,适合想学习python的小伙伴。多快好省,轻松学习python入门标准都知道考试都有0-100分,那么python入门怎么算?我这边也是把python入门分为0-100分。60分算及格的入门标准。入门的标准包括:会安装python工作环境,会命令行CMD运行“hello world”。会使用python的ID原创 2020-12-28 19:34:18 · 714 阅读 · 0 评论 -
我做了3道简单的字符串解码,谜底是我的联系方式(真的)
第一题:%e5%a6%82%e6%9e%9c%e4%bd%a0%e8%83%bd%e7%9c%8b%e5%be%97%e5%88%b0%e8%bf%99%e6%ae%b5%e8%af%9d%ef%bc%8c%e8%af%b4%e6%98%8e%e4%bd%a0%e5%b7%b2%e7%bb%8f%e7%8c%9c%e5%88%b0%e4%ba%86%e7%ac%ac%e4%b8%80%e9%a2%98%e7%9a%84%e8%b0%9c%e5%ba%95%ef%bc%8c%e5%be%88%e7%ae%8原创 2020-12-28 10:41:06 · 78146 阅读 · 0 评论 -
scrapy-redis记录之,重写make_request_from_data和make_requests_from_url
scrapy-redis记录,重写make_request_from_data和make_requests_from_url起因是最近爬了某电商商品,因为用了scrapy-redis来爬,这样可以停机,重新爬,但是单机版有start_requests方法,然而,我的start_url是保存在redis服务器中的,需要从redis接收第一条url那么start_requests方法就不合适。经过搜索和大佬的经验,重写了make_request_from_data和make_requests_from_ur原创 2020-12-27 19:52:35 · 2991 阅读 · 3 评论 -
python爬虫记录scrapy去重,避免item重复存入数据库
经过好几天的摸索,还有大佬的分页方法,这次不需要用selenium进行爬取,可以把商品爬下来,但是期间发现好多都是重复的,又花了点时间。下面讲讲思路,欢迎大佬指点。数据库连接import pymysqlfrom scrapy import signalsfrom twisted.enterprise import adbapi from pymysql import cursorsclass MysqlTwistedPipline(object): def __init__(self,原创 2020-12-15 18:15:11 · 2588 阅读 · 0 评论 -
python爬虫,记录一次CSS反爬的代码移植
还是之前font字体反爬的网站,现在又出了CSS反爬题目,在大佬们资料中学习到了,继续做这个爬虫攻破。<div class="col-md-1"><div class="Pt0IQylm">4</div><div class="BXd1JnGKl"> ::before </div></div><div class="col-md-1"><div class="rnIX2NuAIh">原创 2020-12-03 18:04:28 · 262 阅读 · 3 评论 -
python爬虫,记录一次字体反爬的过程
之前听说过这种比较厉害的手段,昨天算是领教到了,弄了大半天原理,寻找映射关系,看了好些个案例,有汽车之家,58同城,猫眼电影等案例。其实,思路是大致一样的,寻找映射关系,总会有不变的地方。先看下网站源码和显示的区别。每次刷新源码的数字都会变化,但是显示的数据是不变的。查看后发现是base64加密,自定义了字体,转换了数字,0-9,对应不一样的数字。下图就是自定义的字体的字符串,直接复制到最后括号")“之前,以”="号结束。然后通过fonttools工具转换成字体文件(.ttf,woff)等文件形式原创 2020-12-03 10:55:16 · 343 阅读 · 3 评论 -
python爬虫练习网站,墙裂安利这个可以练习爬虫的网站
python爬虫练习网站,墙裂安利这个可以练习爬虫的网站今天无意间发现的一个大佬做的网站,http://www.glidedsky.com/,需要注册登录后跟着大佬提供的题目做,刚刚完成了第一个题目,以为能手到擒来,没想到有csrf-token验证,不过已经算是基础了。目前刚完成第一题,准备第二题。不知道总供给有几道题,目前只看到了3道题。答案就不贴了,有兴趣的可以去注册试试。还是能学到不一样的东西。这是第一题部分的数据,大意就是求和。...原创 2020-12-03 10:51:20 · 6413 阅读 · 9 评论 -
python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标。上图:总共209个牌子,以车牌子命名。分析网页一开始找了好几个网站,都没找到比较容易能获取数据的方式。还是腾讯这边比较给力,有现成的接口,json数据。剩下的就简单了,只需要从json中获取数据就行。all_car_url = 'https://api.ait.auto.qq.com/cardata/serial/all4oldpc'response = r原创 2020-11-12 22:03:08 · 800 阅读 · 5 评论 -
python爬虫,记录爬取全球所有国家-首都的简单爬虫
python爬虫,记录爬取全球所有国家-首都的简单爬虫本来以为简单至极,没想到获取数据还是花费了大把功夫。先上图<table><tr><td><strong>1</strong></td><td><a>中国</a></td><td>北京</td></tr></table>看起来很简单吧?总共有6个表格,217原创 2020-11-09 23:23:33 · 1356 阅读 · 0 评论 -
scrapy京东商品爬虫:哪一种卷筒纸值得买
scrapy京东商品爬虫:哪一种卷筒纸值得买经过数据的清洗,终于得出一个结论:市面上销售的卷筒纸(有芯),按斤算,都在6块钱/斤以上。贵的大概在12块钱/斤。现在大概说下数据清洗的流程。mysql导出csvimport mysql.connectorimport csv mydb = mysql.connector.connect( host="localhost", user="hhq", passwd="123456", database="jing_dong")my_c原创 2020-11-08 14:16:03 · 167 阅读 · 0 评论