- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 scrapy启动分析,在开始爬之前都做了什么
这是我重新学习scrapy的分享,最近开始用scrapy框架蛮顺手,本着研究的想法,想对scrapy如何组织有点兴趣,做了以下记录,用来分析scrapy启动流程,深入代码去看如何组织起来的。下图显示了一个常见的启动场景,划线的地方都是些关键信息。比如scrapy版本,用了什么中间件,启动引擎的信息,开始爬虫的信息都有。那么我们要重哪里开始?scrapy流程图与原理scrapy文档中有一句话:Remember that Scrapy is built on top of the Twisted asy
2021-01-04 22:31:27
350
原创 python入门书籍推荐,看这篇文章就够,请!
python入门书籍推荐,看这篇文章就够,请!事实上,有关python的书籍很多很多,就当当网就有50000件和python有关的书籍,我特地去了当地的新华书店,蹲了大半天,回来给大家推荐,适合想学习python的小伙伴。多快好省,轻松学习python入门标准都知道考试都有0-100分,那么python入门怎么算?我这边也是把python入门分为0-100分。60分算及格的入门标准。入门的标准包括:会安装python工作环境,会命令行CMD运行“hello world”。会使用python的ID
2020-12-28 19:34:18
866
原创 我做了3道简单的字符串解码,谜底是我的联系方式(真的)
第一题:%e5%a6%82%e6%9e%9c%e4%bd%a0%e8%83%bd%e7%9c%8b%e5%be%97%e5%88%b0%e8%bf%99%e6%ae%b5%e8%af%9d%ef%bc%8c%e8%af%b4%e6%98%8e%e4%bd%a0%e5%b7%b2%e7%bb%8f%e7%8c%9c%e5%88%b0%e4%ba%86%e7%ac%ac%e4%b8%80%e9%a2%98%e7%9a%84%e8%b0%9c%e5%ba%95%ef%bc%8c%e5%be%88%e7%ae%8
2020-12-28 10:41:06
121002
原创 scrapy-redis记录之,重写make_request_from_data和make_requests_from_url
scrapy-redis记录,重写make_request_from_data和make_requests_from_url起因是最近爬了某电商商品,因为用了scrapy-redis来爬,这样可以停机,重新爬,但是单机版有start_requests方法,然而,我的start_url是保存在redis服务器中的,需要从redis接收第一条url那么start_requests方法就不合适。经过搜索和大佬的经验,重写了make_request_from_data和make_requests_from_ur
2020-12-27 19:52:35
3238
3
原创 python爬虫记录scrapy去重,避免item重复存入数据库
经过好几天的摸索,还有大佬的分页方法,这次不需要用selenium进行爬取,可以把商品爬下来,但是期间发现好多都是重复的,又花了点时间。下面讲讲思路,欢迎大佬指点。数据库连接import pymysqlfrom scrapy import signalsfrom twisted.enterprise import adbapi from pymysql import cursorsclass MysqlTwistedPipline(object): def __init__(self,
2020-12-15 18:15:11
2719
原创 记录一次使用opencv压缩图片的过程
最近有人问能不能做一个批量能压缩图片大小的工具,于是搜索一番,发现使用python的相关的函数很容易就能简单实现。首先导入需要的包;以及支持的格式,这次使用tkinter来试试。# -*- coding: utf-8 -*-# @Date : 2020-12-07 15:13:48# @Author : autohe (${email})# @知乎 : https://www.zhihu.com/people/kuanye# @微信 : xdxh-1# @funtion :
2020-12-12 15:20:23
585
原创 python爬虫,记录一次CSS反爬的代码移植
还是之前font字体反爬的网站,现在又出了CSS反爬题目,在大佬们资料中学习到了,继续做这个爬虫攻破。<div class="col-md-1"><div class="Pt0IQylm">4</div><div class="BXd1JnGKl"> ::before </div></div><div class="col-md-1"><div class="rnIX2NuAIh">
2020-12-03 18:04:28
328
3
原创 python爬虫,记录一次字体反爬的过程
之前听说过这种比较厉害的手段,昨天算是领教到了,弄了大半天原理,寻找映射关系,看了好些个案例,有汽车之家,58同城,猫眼电影等案例。其实,思路是大致一样的,寻找映射关系,总会有不变的地方。先看下网站源码和显示的区别。每次刷新源码的数字都会变化,但是显示的数据是不变的。查看后发现是base64加密,自定义了字体,转换了数字,0-9,对应不一样的数字。下图就是自定义的字体的字符串,直接复制到最后括号")“之前,以”="号结束。然后通过fonttools工具转换成字体文件(.ttf,woff)等文件形式
2020-12-03 10:55:16
419
3
原创 python爬虫练习网站,墙裂安利这个可以练习爬虫的网站
python爬虫练习网站,墙裂安利这个可以练习爬虫的网站今天无意间发现的一个大佬做的网站,http://www.glidedsky.com/,需要注册登录后跟着大佬提供的题目做,刚刚完成了第一个题目,以为能手到擒来,没想到有csrf-token验证,不过已经算是基础了。目前刚完成第一题,准备第二题。不知道总供给有几道题,目前只看到了3道题。答案就不贴了,有兴趣的可以去注册试试。还是能学到不一样的东西。这是第一题部分的数据,大意就是求和。...
2020-12-03 10:51:20
6815
9
原创 python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标。上图:总共209个牌子,以车牌子命名。分析网页一开始找了好几个网站,都没找到比较容易能获取数据的方式。还是腾讯这边比较给力,有现成的接口,json数据。剩下的就简单了,只需要从json中获取数据就行。all_car_url = 'https://api.ait.auto.qq.com/cardata/serial/all4oldpc'response = r
2020-11-12 22:03:08
946
6
原创 python爬虫,记录爬取全球所有国家-首都的简单爬虫
python爬虫,记录爬取全球所有国家-首都的简单爬虫本来以为简单至极,没想到获取数据还是花费了大把功夫。先上图<table><tr><td><strong>1</strong></td><td><a>中国</a></td><td>北京</td></tr></table>看起来很简单吧?总共有6个表格,217
2020-11-09 23:23:33
1498
原创 scrapy京东商品爬虫:哪一种卷筒纸值得买
scrapy京东商品爬虫:哪一种卷筒纸值得买经过数据的清洗,终于得出一个结论:市面上销售的卷筒纸(有芯),按斤算,都在6块钱/斤以上。贵的大概在12块钱/斤。现在大概说下数据清洗的流程。mysql导出csvimport mysql.connectorimport csv mydb = mysql.connector.connect( host="localhost", user="hhq", passwd="123456", database="jing_dong")my_c
2020-11-08 14:16:03
208
原创 MPU6050初始化及数据过滤,滤波效果
接上一篇,这里说下树莓派飞控的硬件初始化以及过滤数据中的噪音。飞机在高速转动下,陀螺仪和加速度计由于噪音的存在,传递给解算姿态的数据也会有问题,导致解算姿态结果不理想。实验环境 树莓派,mpu6050,qmc5883l,接口都是使用IIC(建议都改过树莓派iic的传输速率,默认只有100k/s,速度不够快。代码初始化 6050的初始化不算难,主要设置陀螺仪,加速度计量程,采集频率等...
2019-08-07 22:51:23
3573
1
原创 树莓派飞控之姿态解算流程与心得
树莓派飞控之姿态解算代码流程 写这篇的时候,目前飞机可以达到在60%的油门下,达到自稳的情况。但是无法悬停,计划把姿态解算相关的代码左下解读。欢迎交流。这里不做数学原理等推导,因为本人才疏学浅。实验环境飞控:树莓派传感器:mpu6050,qmc5883l。(都是iic接口驱动)。算法:9轴数据融合,转换4元数。最终使用ROLL,PITCH,YAW表示飞控的姿态。代码流程/* 传...
2019-08-06 13:46:31
1391
1
原创 树莓派飞控之心得体会整体模块和参数调试
螺旋桨刚拆下来,目前已经在调试PID,roll和pitch的自稳效果已经有成效,这大半年来的努力准备要飞起来了,在这里做刚总结。目前需要的硬件清单如下:MPU6050,QMC5833L,PCA9685,减震板,大疆电机4个,9450桨4个(建议多备),树莓派3b一个。sbus接受,遥控器配对。硬件说完了,代码框架如下。这里要非常感谢原子哥的开源代码和cleanflight的代码,目前最终的...
2019-07-25 23:06:49
2683
原创 树莓派I2C读写MPU6050不同方式效率对比
树莓派I2C读写MPU6050不同方式效率对比 近期在调整PID参数的时候,发现mpu6050滤波后的姿态严重滞后,查看该线程的周期时间,一次循环是16000us以上,频率才60多HZ,调整其他参数仍然无法优化达到自稳。想来单片机都可以做到很高的频率,其他前辈都能用树莓派做飞控,没理由我的树莓派运行效率这么慢。 对比了别人的MPU6050代码,我使用的是wiringpi这个库的i2c...
2019-06-26 21:34:23
1191
原创 # MPU6050之2阶低通滤波,滤波效果非常好
自从打算搞无人机之后,最终倒在了姿态的问题上,每次到了调参数PID,飞机都不稳。之后锁定了几个可能的因素,一是参数没做到最佳,二就是电机高转速下,6050受到震动的情况下,姿态乱了,导致PID无法做到最佳。 经过各种排查,试过各种减震,效果还是不明显,无意中接触了穿越机的F3飞控,经过实验,发现穿越机在没有做减震的情况下,输出的数据非常平滑,看了代码,6050输出...
2019-06-20 21:03:58
6609
10
原创 树莓派之PCA9685驱动无刷电机
最近开始做无刷电机的驱动方法,用PCA9685来做。关于该模块作用,大家百度下。使用的是I2C驱动。关于i2c驱动 关于I2C驱动,这里用的是wiringPi做进一步封装,I2C驱动的函数如下:#include <stdbool.h>int checkI2cDeviceIsExist(unsigned char devAddr);bool writeBy...
2019-05-29 18:36:37
5374
5
原创 树莓派飞控PID调节之XJB调
最近代码已经整理差不多,开始了漫长的调试,试图在电机转动的时候调节到平衡状态。遇到了飞机震动造成的姿态也随之起伏的问题。 看了下前辈的说法,是飞机共振。需要减震,需要滤波,关于滤波,用的是卡尔漫滤波,目前还没什么好方法解决。而且也不太懂原理。float pidUpdate(PidObject* pid, const float error){float output;...
2019-05-20 21:54:20
1093
原创 树莓派之linux网络编程:socket非阻塞模式实现,方便调试PID
最近开始左pid调节了,多环串级PID,总共6个参数,每次都要改参数,重新启动太麻烦,于是计划用pythonGUI编程结合socket通信,做一个假单多pid调节。花了几天时间,功能实现了,虽然bug还不少,能用了。界面很简单,里面用到了python,tkinter,socket,多线程等库。由于socket默认是阻塞多,这里需要做成非阻塞的形式,才不至于等待数据多接收而等待,这样程序没有意义...
2019-04-22 22:19:06
516
原创 树莓派wifi连接路由器的设置方法
因为有时候要出差,带着树莓派又想着能在酒店继续玩,又不想带着网线。现在记录下来设置的方法。1树莓派系统:官方linux版本。2建议多带一条网线,如果WIFI实在连接不上,还可以做备选。3读卡器。原有的方法1在boot分区新建空ssh文件。2在boot分区新建wpa_supplicant.conf,并且写入以下内容ctrl_interface=/var/run/wpa_supplica...
2019-03-20 22:40:32
3865
1
原创 MPU6050单轴双浆姿态平衡PID调戏之姿态解算
最近看群里部分小伙伴对于6050如何计算姿态比较感兴趣,自己也想对这段时间的学习做个总结,这次来说说姿态计算的方法,其实还不懂其中数学原理,正好自己也当作学习。解算姿态的前提一定要确认MPU6050的加速度计:AX, AY, AZ,陀螺仪:GX, GY, GZ的数据没有问题。比如一下几种:1.初始化后,静止平放的时候,数据跳变非常频繁,而且幅度比较大,例如:AX:100 100 100 1...
2019-03-10 18:36:55
1928
原创 MPU6050单轴双浆姿态平衡PID调戏之MPU6050初始化篇
这个其实是为了直观的观察PID的调节过程,因为本人对于数学并不擅长,又说PID是比较依赖经验,看着老外搭建了一个实验的设备,我也画了葫芦做了一个。以下是需要的设备介绍。需要的设备硬件介绍树莓派3bMPU6050PCA96852个有浆无刷电机(浆要两个不一样的,转的时候要抵消)编程平台树莓派运行官方Linux系统,编辑器用交叉编译工具(arm-linux-g++)。MPU60...
2019-03-03 11:30:37
3791
2
原创 单轴PID调节测试,距离做无人机又近了一步
经过几个星期的修改代码,单轴PID调节有点意思了。硬件:树莓派3bmpu6050pca9685无刷电机 X 2```struct PID{float kp; //< proportional gain调整比例参数float ki; //< integral gain调整积分参数float kd; //&l...
2019-01-27 21:52:36
569
3
原创 树梅派linux编成,i2c读取mpu9250数据
最近刚买了块树梅派3b,打算重新玩下linux驱动等,正好身边有mpu9250模块,用来研究正好。操作环境:1.PC:FEDORA282.交叉编译环境3.树莓派3b,并且系统为linux4.mpu9250模块5.MotionSensorExample以上的第五点就是在github上的一份案例代码,修改一部分就可以用。main函数在main.c,lib–I2Cdev是i2c读取的一些...
2018-12-07 19:33:58
2449
1
原创 python之3D散点图,mpu9250获取的YAW,PITCH,ROLL做3D图
这段时间买了块数梅派,做了一个I2C驱动mpu9250的测试,成功输出了yaw,pitch,roll三个姿态角。但是鉴于不懂这数据是如何描述的,想来先看看用python坐下3D图试试。pitch是围绕X轴旋转,也叫做俯仰角。当X轴的正半轴位于过坐标原点的水平面之上(抬头)时,俯仰角为正,否则为负。yaw是围绕Y轴旋转,也叫偏航角。即机头右偏航为正,反之为负。roll是围绕Z轴旋转,也叫翻滚角...
2018-12-05 23:28:49
2145
原创 作业
作业 雪球网。搜索土耳其ETF-iShares MSCI(NASDAQ:TUR) 看到上图,最后右键—-检查元素 begin=,end=就是时间戳,只要改这两个时间就可以得到以下想要的内容,先看下部分内容 item:后面的内容就是想要的数据,简单正则pattern = re.compile(r’[[.*]]’),,,,resu = patter...
2018-08-13 22:33:58
182
原创 我的python入门心得
我的python入门心得背景介绍,为什么是python 我大概半年前开始业余时间学的,本身大学学的也是软件,虽然没接触过python,但我觉得应该学习成本也不高。去菜鸟教程看了下,http://www.runoob.com/python3/python3-tutorial.html。掌握一些基本东西就可以。学习时间大概3小时。 数据类型:string,int,l...
2018-08-02 21:21:57
7632
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人