自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python爬虫之Scrapy介绍五——下载图片或者文件

本篇博文主要介绍利用scrapy内置的下载模块来下载文件和图片。相对于自己撰写的代码,它具有如下特点: 1:避免重新下载最近已经下载过的数据 2:可以方便的指定文件存储的路径 3:可以将下载的图片转换成通用的格式。如:png,jpg 4:可以方便的生成缩略图 5:可以方便的检测图片的宽和高,确保他...

2020-07-04 10:54:06 45 0

原创 python爬虫之Scrapy介绍五——下载中间件和随机设置header和ip

本篇博文主要介绍Scrapy框架里面的下载中间件,在middlewares.py文件中可以找到相应的代码(class GithubDownloaderMiddleware)。并且通过修改中间件的代码可以随机设置请求头和ip。下面我们会先介绍下载中间件的代码内容,然后讲如何随机设置header和ip...

2020-07-04 09:38:41 21 0

原创 python爬虫之Scrapy介绍四——模拟登录

本篇博文介绍的是如何实现用Scrapy实现登录,这里介绍两种响应,一种是get响应(人人网登录为示例),一种是post响应(GitHub为示例)。 1 模拟登录人人网 import scrapy class RenrenSpider(scrapy.Spider): name = ...

2020-07-03 22:29:08 41 0

原创 python爬虫之Scrapy CrawlSpider说明——以阳光平台为例

本博客通过采用两种方式来爬取阳光平台,第一种方式是 Scrapy Spider 方式爬取, 第二种是Scrapy CrawlSpider爬取。相比于第一种,第二种更加简洁方便。 通过比较可以突出Scrapy CrawlSpider 适用于在主页中寻找下一页的URL地址或者内容的URL地址上 1 S...

2020-07-01 17:02:31 28 0

原创 python爬虫之Scrapy介绍三——文档介绍

配置文件认识1 Scrapy log信息的认知2 Scrapy shell3 Scrapy settings说明和配置 1 Scrapy log信息的认知 [ scrapy.utils.log] INFO: Overridden settings:自己设置的setting的信息 [ scrapy ...

2020-07-01 16:18:08 21 0

原创 计量经济学学习笔记:多重共线性、异方差、自相关

多重共线性、异方差、自相关多重共线性异方差自相关 多重共线性 1 多重共线性是指各个解释变量之间有准确或近似准确的线性关系。 2 多重共线性的原因: (1)经济变量之间具有共同变化趋势。 (2).利用截面数据建立模型也可能出现多重共线性。 (3) 模型中包含滞后变量。 (4)变量的选择不当。 (5...

2020-06-28 17:58:58 99 0

原创 计量经济学学习笔记:多元线性模型

主要内容: 多元线性回归模型及其矩阵形式。 多元线性回归模型中对随机扰动项u的假定,除了其他基本假定以外,还要求满足无多重共线性假定。 多元线性回归模型参数的最小二乘估计量;在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计量。 多元线性回归模型中参数区间估计的方法。 多重...

2020-06-28 17:20:02 30 0

原创 计量经济学学习笔记:简单线性模型

知识点: 1、变量间的关系分为函数关系与相关关系。 相关系数是对变量间线性相关程度的度量。 2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由解释变量去估计被解释变量的平均值。 3、总体回归函数(PRF)是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。 样本...

2020-06-28 17:02:51 31 0

原创 双重差分模型DID学习笔记

1.DID介绍 1.1 特点 双重差分模型 (Difference-Differences, DID)是政策评估的非实验方法中最为常用的一种方法,其中交互项是DID的灵魂。 交互项形式拥有各种形式,包括(1)传统DID;(2)经典DID;(3)异时DID;(4)广义DID;以及(5)异质性DID。...

2020-06-22 20:17:50 378 0

原创 python爬虫之Scrapy介绍二——以爬取腾讯招聘为例

python爬虫之Scrapy介绍1. logging模块1.1 简介1.2 错误级别1.3 常用配置1.4 logging模块在scrapy文件的配置2. scrapy.Request—以腾讯招聘爬虫为例3. item 1. logging模块 1.1 简介 定义:Python 中的 loggi...

2020-06-20 21:18:48 49 0

原创 新制度会计学研究学习笔记:Bridging Relational Networks and Markets in Emerging Economies

黄德尊教授报告的新制度会计学研究笔记 内容: - Develop a comprehensive framework to understand how governance works in China(理论应用和治理的好与坏) -Study governance mechanisms...

2020-06-19 12:07:34 75 0

原创 计量经济学学习笔记:导论

之前看了一遍伍德里奇的计量经济学,感觉学得没有很深,没有理解透,哈哈~ 所以重新看了西财庞老师计量经济学的书籍,做了一些笔记,希望可以坚持呀,进入正文呀 本篇博文的主要内容为 ●什么是计量经济学 ●计量经济学的基本研究方式 ●计量经济学中最基本的概念 1. 什么是计量经济学 首先举个...

2020-06-17 17:06:34 102 0

原创 python爬虫之Scrapy入门介绍——安装、工作流程、模块介绍

学习参考:Scrapy python爬虫之Scrapy入门介绍1. Scrapy 介绍1.1 定义和用途1.2 安装1.3 特点2. Scrapy的工作流程3. Scrapy基本结构4. Scrapy爬虫入门4.1 查看访问响应4.2 爬取网页内容4.3 保存网页内容 1. Scrapy 介绍 1...

2020-06-17 14:29:12 26 0

原创 Python爬虫之多进程介绍

Python爬虫之多进程介绍1 进程介绍2 进程间的通信2.1 进程队列使用2.2 进程间不共享全局变量2.3 进程间的通信3 进程池间的通信 1 进程介绍 (1)概念 进程是正在执行的程序。 程序:没有执行的代码,是⼀个静态的。 1)进程是一个具有一定独立功能的程序在一个数据集上的一次动态执行的...

2020-06-13 11:30:07 88 0

原创 Python爬虫之多线程练习——多线程爬取表情包详解

多线程爬取表情包详解1. 普通爬取表情包2.多线程爬取工作原理3.多线程爬取表情包代码 ''' 需求:在斗图网爬取表情包并且保存 网址: https://www.doutula.com/photo/list/?page=1 https://www.doutula.co...

2020-06-12 21:06:31 40 0

原创 python爬虫之多线程介绍(二)

python爬虫之多线程介绍(二)1 线程间资源的竞争1.1 线程间资源竞争产生的原因1.2 线程间资源竞争的解决1.2.1 互斥锁1.2.2 死锁2 线程锁2.1 Semaphore2.2 Condition2.3 Event2.4 with3 Queue线程和线程池3.1 Queue线程3....

2020-06-10 21:33:11 86 0

原创 python爬虫之多线程介绍(一)

python爬虫之多线程介绍1. 多线程简介1.1 进程与线程1.2 多线程2. 主线程和子线程的执行关系3. join和setDaemon的使用4.查看线程数量5.线程间的通信(多线程共享全局变量) 1. 多线程简介 1.1 进程与线程 此部分的学习参考自:进程与线程 (1)进程:进程是一个具有...

2020-06-10 16:09:51 63 0

原创 python之转盘游戏——采用threading和tkinter模块实现

# 1.有12个备选选项和2个功能按钮 确定备选选项和功能按钮的位置 # 2.点击开始会不断旋转。选中的时候背景颜色为红色,点击停止结束 import threading import tkinter import time # 1.实现窗口 root = tkinter.Tk() root....

2020-06-10 15:24:48 41 0

原创 python爬虫之图形验证码学习

python爬虫之图形验证码学习1. Tesseract介绍2. Tesseract安装二级目录三级目录 1. Tesseract介绍 有时候我们在登录或者请求一些数据时候会遇到图形验证码。因此我们引入一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学文字识别(Optical Chara...

2020-06-03 16:57:29 100 0

原创 python爬虫之淘宝秒抢软件

''' 需求(步骤): 1. 打开网址 https://www.taobao.com/ 2. 点击登录(此处练习通过扫码登录) 3. 点击进入购物车 https://cart.taobao.com/cart.htm 4. 全选商品 5. 点击结算 6. 点击提交订单 ...

2020-06-03 14:49:33 385 0

原创 python爬虫selenium之选择下拉列表的两种方式

本篇博文仍以https://www.17sucai.com/pins/demo-show?id=5926,这个网址示例如何进行下拉列表的选项选择。 选择下拉列表的时候,存在两种情况。第一种是有select标签的,这种情况下可以通过from selenium.webdriver.support.ui...

2020-06-03 14:30:37 185 0

原创 python爬虫之Selenium练习-登录QQ邮箱

''' https://mail.qq.com/ ''' from selenium import webdriver # 打开目标网址 driver = webdriver.Chrome() driver.get('https...

2020-06-01 16:14:02 93 0

原创 python爬虫之Selenium用法

python爬虫之Selenium用法1 Selenium介绍2 Phantomjs3 Selenium3.1 定位元素 1 Selenium介绍 (1)定义 selenium是⼀个web的自动化测试⼯具,最初是为网站自动化测试而开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览...

2020-06-01 15:53:25 81 0

原创 python之csv模块学习

import csv # 读取字符串 for row in csv.reader(['one,two,three']): print(row) # ['one', 'two', 'three'] # 写数...

2020-05-27 13:06:52 64 0

原创 python爬虫之js2py介绍使用

1 js2py模块简介 在平时爬虫过程中,我们会遇到网站对js文件加密,无法爬取,现在就让我们来了解一下js2py模块,它可以对js文件进行解密 2 js2py使用 2.1 js2py安装 Python中执行JS代码,通常两个库:js2py,pyexecjs,通常使用的是js2py js2py...

2020-05-27 12:04:17 110 0

原创 python爬虫之爬取天气预报

在这篇博文,我们练习了利用beautifulsoup爬取了中国天气预报(http://www.weather.com.cn/textFC/gat.shtml),让我们一起学习一下吧~ python爬虫之爬取中国天气预报1.爬取步骤2.获取网页源代码3. 分析天气爬取规律4 保存文件5 完整爬取中国...

2020-05-22 17:51:01 344 2

原创 python之爬取百度图片

# 目标url:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&...

2020-05-22 11:35:18 109 0

原创 python爬虫之BeautifulSoup4介绍

python爬虫之BeautifulSoup4介绍1 bs4介绍1.1基本概念1.2 安装方法2 bs4的使用2.1 快速入门2.2 bs4的对象种类3 遍历树 遍历子节点3.1 contents children descendants3.2 .string .strings .stripped...

2020-05-21 17:07:25 42 0

原创 python爬虫之xpath和lxml应用—爬取豆瓣评分爬取

python爬虫之豆瓣评分爬取1 第一步 获取网页源码2 第二步 获取电影信息3 第三步 保存数据4 综合 ''' 需求:爬取电影的名字 评分 引言 详情页的url,每一页都爬取并且把数据保存到csv文件当中 步骤: 第一步 获取网页源码 第二步 获取电影信息 第三步...

2020-05-18 18:10:25 86 0

原创 python爬虫之xpath和lxml模块介绍

python爬虫之xpath和lxml模块介绍1 xpath和xml引入1.1 基本概念1.2 结点的关系2 xpath介绍2.1 工具安装2.2 基础使用2.1 常规操作2.2 定位特定内容2.3 通配符3 lxml模块的使用3.1 模块的简介3.2 模块的使用 上篇博文我们学习了正则表达式,...

2020-05-18 14:13:58 67 0

原创 python之文件操作介绍

python之写入文件1 os模块1.1 os模块简介1.2 常用操作2 文件操作2.1 文件操作简介2.2 打开文件2.3 读取文件的方法2.4 文件的读取关闭2.5 较大文件读取2.6 文件写入2.7 二进制文件的操作 1 os模块 os模块的学习参考的是Python必学的OS模块详解 1....

2020-05-18 11:02:29 51 0

原创 python之异常处理

python之异常处理1 异常简介2 异常传播3 异常对象 1 异常简介 程序在运行过程中可能会出现⼀些错误。比如: 使用了不存在的索引,两个不同类型的数据相加…这些错误我们称之为异常。 print(a) # NameError: name 'a' is not defined...

2020-05-15 21:52:35 47 0

原创 python爬虫之正则表达式练习——爬取百度图片

1 明确需求,创建环境 ''' 第一步:明确需求,转换图片 需求:爬取百度图片中关于森林的图片,并保存 网址:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&a...

2020-05-15 18:25:45 248 1

原创 python爬虫之正则表达式(二)

python爬虫之正则表达式(二)1 re模块常用方法4. 分组功能 在《python爬虫之正则表达式(一)》文章中,我们介绍了正则表达式的应用场景以及普通字符、元字符、预定义匹配字符集和重复匹配。在本篇博文中,我们将续上文,re模块常用方法、分组功能,以及最后进行一些练习。 1 re模块常用方法...

2020-05-14 20:01:30 55 0

原创 python之模块介绍

python之模块介绍1 模块简介2 模块创建3 模块使用 1 模块简介 (1)定义:模块化指将⼀个完整的程序分解成⼀个个的小模块,通过将模块组合,来搭建出⼀个完整的程序 (2)优点:方便开发、方便维护、模块可以复用 2 模块创建 (1)在Python当中⼀个py文件就是⼀个模块 (2)在⼀个模...

2020-05-12 16:50:08 45 0

原创 python之面向对象介绍(四)——继承与多态

python之面向对象介绍(四)1 继承1.1 继承的引入三级目录 对象的三大特性分别是: 封装(确保对象中的数据安全) 继承(保证了对象的可扩展性) 多态(保证了程序的灵活) 我们在面向对象介绍(三)中介绍了封装,现在就让我们来细说对象的继承和多态 1 继承 1.1 继承的引入 三级目录 ...

2020-05-10 23:46:21 54 0

原创 python爬虫之正则表达式(一)

python爬虫之正则表达式1 正则表达式的简介1.1 概念1.2 正则表达式的应用场景2 正则表达式对 Python 的支持2.1 普通字符2.2 match()函数和search()函数2.3 元字符2.4 预定义匹配字符集2.5 重复匹配 1 正则表达式的简介 1.1 概念 正则表达式是对字...

2020-05-08 17:23:39 122 0

原创 python爬虫之cookie和session介绍——以12306验证码破解和浏览车次为例

python爬虫之cookie和session介绍1 cookie介绍1.1 定义1.2 应用2 session介绍2.1 定义2.2 session和cookie关系3 综合应用——以12306为例3.1 12306的验证码破解3.1.1 设置参数,请求目标url3.1.2 拿到12306的验证...

2020-05-08 15:08:51 967 0

原创 python之面向对象介绍(三)

python之面向对象介绍(三)1 封装的介绍1.1 封装原因1.2 封装分类2 封装属性2.1 封装属性的引入2.2 封装属性的方法2.3 封装属性后修改属性3 封装方法4 装饰器4.1 装饰器介绍4.2 装饰器修改属性或者方法4.3 装饰器删除属性或者方法4.4 综合练习4.5 利用prope...

2020-05-07 14:43:31 35 0

原创 python之面向对象介绍(二)

我们在python之面向对象(一)介绍了: 1、面向对象和面向过程的区别 2、类的用法、对象的实例化、类的属性、类的方法 本节课我们进入python的面向对象(二),介绍对象中的魔术方法 python之面向对象—魔术方法1 魔术方法的介绍1.1 定义1.2 特点1.3 总结2 \__new__(c...

2020-05-07 13:19:25 132 0

提示
确定要删除当前文章?
取消 删除