自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【模拟登陆】github模拟登陆,打印信息流

目的:动态获取cookie第一:分析登陆过程1、打开开发者工具,查看各自请求2、可以看到name为session的请求【方式post,传入的data】3、查看name为login的请求,源码中获得token,作为上一个请求中的data的一部分 第二:登陆以后,解析页面信息流数据 查看信息流请求的url,自行构建对应的url,解析 1、这里有个技巧    /d...

2018-07-31 17:43:31 495

原创 【爬虫】利用selenium爬取淘宝并保存到mongodb数据库

背景:淘宝的Ajax加密处理,不方便直接解析Ajax请求数据,所以利用selenium库实现模拟爬取架构:第一:主要的思路第二:定义mongodb是类,实现数据存储主要注意的是,mongodb用户名和密码的问题。第三:爬取产品搜索结果页面第四:解析具体的product第五:源码import pymongofrom selenium.webdr...

2018-07-31 15:48:21 1666

原创 【数据库】mongodb 安装/账号管理/python连接

第一:安装1、新建文件夹      data文件夹下新建db文件夹      log文件夹下新建mongodb.log【非强求】      bin同级目录新建mongodb.config文件2、运行mongodb服务mongod.exe dbpath H:/mongo/data/db3、配置成系统服务【A 直接运行命令】     管理员权限运行cmdmon...

2018-07-31 14:54:05 423

原创 【爬虫】python爬取微信公众号文章

背景:利用代理池爬取微信公众号文章并保存架构:巨坑:实例的名不可于类的名重复。第一:请求及请求队列1、为什么要创建weixinrequest()?      因为Sogou微信搜索反爬虫能力强,response.status_code容易出现302,也就是需要输入验证码。当然解决这个问题有两个途径,一个是调用验证码自动识别,另一个是将该302连接重新放回请求队列,更好代...

2018-07-21 15:27:07 5219 1

原创 【正则表达式】python 中的re模块及正斜杠/ 反斜杠

第一:转义字符:改变原有字符的意义,一般都以反斜杠\作为起始。\n   意思是换行,不再表示字母n。 第二:python中,反斜杠\本身就是个转义字符。1、\\,第一个反斜杠表示转义,意思是第二反斜杠不再视为一个转义字符。print('\\')打印输出单独一个\。2、加一个r【r是原始字符的简写:raw string】,就表示废掉python中\的转义能力。...

2018-07-19 23:32:20 11978

原创 日常笔记【不定时更新】

1、python if else 简写data = [] if data is None else data如果data为None,那么就设置为空列表,否则就是data。 2、继承父类super class weixinrequest(Request): def __init__(self,url,method,headers,need_proxy=False,fa...

2018-07-19 22:55:52 387

原创 【学习笔记】python爬虫---代理池

背景:崔庆才的爬虫学习笔记整体架构: 获取模块【各大网址爬取代理】----->存储模块【redis有序集合存储】<==========>检测模块                                                                    ||                                     ...

2018-07-19 22:48:04 5874 5

原创 【统计学习3】线性回归:R方(R-squared)及调整R方(Adjusted R-Square)

第一:R方(R-squared)定义:衡量模型拟合度的一个量,是一个比例形式,被解释方差/总方差。公式:R-squared = SSR/TSS                            =1 -  RSS/TSS其中:TSS是执行回归分析前,响应变量固有的方差。          RSS残差平方和就是,回归模型不能解释的方差。          SSR回归模型可以解释的方差。综上,R-...

2018-07-12 16:54:27 178857 4

原创 【统计学习2】线性回归:RSS,TSS,T检测,F检测,假设检验

第一:假设检验以抛硬币来说H0 假设【假设】:硬币是公平【出现正反概率各为1/2】Ha 假设【检验】:硬币是有问题整个假设检验过程,是在H0假设条件下,进行试验,如果推导出自相矛盾的结论,那么就拒绝H0假设。【所谓的自相矛盾,试验结果,在H0假设条件下,出现的概率极小。】p值:在假设原假设(H0)正确时,出现现状或更差的情况的概率。1.1  H0假设下,我们知道抛硬币,出现正面的次数,符合二项式分...

2018-07-11 00:47:06 37418 1

原创 【统计学习1】方差、协方差、相关系数与向量内积

第一:方差定义:随机变量或者一组数据离散情况的度量。为啥分母 n-1?a、目的:方差的估计是无偏的。b、原因:实际工作中,总体均数难以得到时,只能应用样本统计量代替总体参数。c、解释:分子上求期望【理解为求样本均值】已经用掉所有的自由度n;               事实上,如果分母n,因为第n个数,已经由n-1个数,和期望决定了,所有其没有信息量,所有要n-1。               简...

2018-07-09 17:35:03 6758

原创 【学习笔记】腾讯云安装配置redis,并redis desktop manager 远程连接

服务器:Centos  7.2 64位本地电脑:windows 10 64位登陆方式:mobaxterm第一:redis 数据库的介绍定义:redis 主要基于内存存储和运行的,能够快速响应键值数据库产品。应用场景:少量数据存储,高速读写访问。TRDS、Mongodb、Redis比较比较项TRDB【关系型数据库】Mongodbredis读写速度1一般较快最快读写速度2基于硬盘读写,强约束基于硬盘读...

2018-07-04 19:04:11 1629

原创 MySQL学习笔记之四:多表查询

第一:连接【join】定义:将两张以上的表中的数据整合在一起的机制,称为连接。1、 笛卡儿积定义:两张表以上所有的置换。原因是没有指定连接。两张表如下:employee表,department表,employee.dept_id是department表的外键。查询雇员的全名和其所在的部门名,涉及到两张表。查询语句:select e.fname,e.lname,d.name from `employ...

2018-07-01 13:58:41 383

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除