自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 收藏
  • 关注

原创 python机器学习 | 决策树算法介绍及实现

最近天气变得特别冷,之前每每遇到周末,我都想出去玩,现在冻到只想躲在温室里过冬,真的too too cold ~周六看了一本书《你像鸟飞往你的山》,本来是想通过看书平静一下自己浮躁的心绪,结果看得有些些压抑,这算是平静过头了吗。。。哈哈,这篇博文主要讲的是决策树算法的内容学习了如下博客:1.决策树算法及Python实现2.决策树算法介绍决策树算法介绍及实现1 决策树算法介绍1.1 决策树算法的引入1.2 决策树算法步骤2 决策树算法分类2.1 信息熵(Entropy)2.2 ID3算法(信息增益)

2020-11-22 15:37:16 17

原创 python机器学习 | 逻辑回归介绍及实现

逻辑回归1 逻辑回归介绍2 逻辑回归原理2.1 逻辑回归的输入2.2 逻辑回归的结果预测2.3 逻辑回归损失函数2.4 逻辑回归预测结果评估3 逻辑回归api介绍3.1 逻辑回归预测api3.2 逻辑回归分类评估api1 逻辑回归介绍(1)定义:逻辑回归(Logistic Regression)是机器学习中的一种分类算法,虽然名字中带有回归,但是它只是与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。(2)应用情景广告点击率高低是否为垃圾邮件是否患病是否金融诈骗是否虚假账

2020-11-15 17:03:16 250

原创 python机器学习| 岭回归介绍及实现

岭回归介绍及实现1 岭回归的引入2 岭回归的原理2.1 原理介绍2.2 原理代码实现3 API 实现1 岭回归的引入在线性回归-正规方程和梯度下降中,我们介绍了基于正规方程或者梯度下降的优化算法,来寻找最优解。在正规方程解中,它是基于直接求导得到最优解,公式如下:但是,遇到如下情况的时候,正规方程无法求解。数据中有多余的特征,例如数据中有两组特征是线性相关的,此时需要删除其中一组特征。特征数大于样本数。如果数据的特征(X)比样本点(y)还多,即数据特征n,样本个数m,如果n>m,那么计

2020-11-15 15:46:56 151

原创 python机器学习 | 多项式回归和拟合

多项式回归和拟合、正则化1 多项式回归1.1 介绍1.2 回归实现2 拟合&正则化2.1拟合问题2.1.1 拟合出现的类型2.2 解决拟合出现的问题3 正则化3.1 介绍3.2 分类1 多项式回归1.1 介绍在线性回归中,我们介绍了的是这种模型y = kX +b来拟合图形,但是也存在一些数据分析用线性拟合效果很差,或者说不适合用线性回归来拟合,如下图相对而言,用多项式就比较合适。多项式就是如同y = a + bx^2 + c这种, y = a + bx^2 +cx^3 + d 等等也

2020-11-05 18:57:32 129

原创 python机器学习 | 线性回归-正规方程和梯度下降

今天的网真的非常不适合做学术。本来抱着一颗要认真改论文的心,折腾了一上午,谷歌学术上不了,也搜不到想要的论文,改也没思路。。。简而言之,整个人要炸了,所以转一下手上的活1线性回归介绍1.1 定义(1)定义:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。1.2用途(2)用途:利用现有数据,建立模型(线性模型),然后输入自变量(特征值),预测因变量(目标值)1.3流程(3)流程大致如下:1.4分

2020-11-05 16:11:10 123

原创 python机器学习 | K近邻算法学习(2)

在python机器学习 | K近邻算法学习(1)一文中,我们介绍了K近邻算法的一些基础知识,包括算法原理、实现流程等。这里基于前一篇,以完整的鸢尾花示例,介绍K近邻算法在分类和回归上的应用。K近邻算法分类和回归应用1 K近邻算法的分类应用2 K近邻算法的回归应用2.1 K近邻算法的回归原理2.2 K近邻算法的回归实现1 K近邻算法的分类应用这里以鸢尾花数据为示例,步骤为:获取数据数据基本处理特征工程机器学习(模型训练)模型评估"""导入模块"""# 加载数据from sklearn

2020-10-28 14:03:43 30

原创 学习笔记 | Heckman两阶段法介绍

最近看的两篇VC文献,都是有使用到Heckman两阶段法,所以就借此机会系统学习了Heckman两阶段法本篇内容主要学习了如下文章:1 CJAR的带你了解Heckman两步法2 计量经济圈的Heckman两步法是什么? 及其内生性问题?3 Stata连享会的Heckman 模型:你用对了吗?4 会计学术联盟的玩转Stata | Heckman两阶段-内生性处理利器​5 社经研究社的您真的懂得如何运用Heckman模型检验吗?这几篇文章都很有用,这几个公众号也很赞,所以可以多学习多学习

2020-10-27 20:05:01 649

原创 VC论文学习 | Politically-connected VCs and IPO activity in China

这是最近刚发在JCF上的一篇关于政治关联的VC在企业IPO中发挥的作用的探讨。以往的文献都集中在公司高管、董事、公司的政治资源角度入手,这篇论文从VC的政治资源角度展开,重点围绕事前是screening hypothesis还是devoting resources hypothesis驱动了IPO正向影响,并且resource到底是monitoring effect hypothesis还是political relationship hypothesis展开。首先是论文的主要内容和一点点读后感接

2020-10-26 13:20:58 38

原创 VC论文学习 | Venture capital investment and the performance of entrepreneurial firms

最近在看VC方面的研究,老师建议是否可以以后作为研究方向之一。所以,在忙完上个项目后,想利用最近空闲时间梳理一下,这是2013年JCF上的一篇文献,算是比较早的中国VC研究,当然通过它的参考文献,也找到一些更早的,后面会慢慢梳理。简单梳理后,我要抓住周末的尾巴,出去玩啦~~首先是论文的主要内容和一点点读后感接下来就是整个论文的框架和内容...

2020-10-25 14:37:55 108

原创 python机器学习 | K近邻算法学习(1)

K近邻算法学习1 K近邻算法介绍1.1算法定义1.2算法原理1.3算法讨论1.3.1 K值选择1.3.2距离计算1.3.3 KD树2 K近邻算法实现2.1scikit-learn工具介绍2.2scikit-learn实现K近邻算法——分类问题2.3scikit-learn深入(流程)介绍- 以鸢尾花数据为例2.3.1数据集获取2.3.2特征直观绘图2.3.3数据分割1 K近邻算法介绍1.1算法定义(1)K-近邻(K-Nearest Neighboor)算法定义:基于检测样本与k个在特征空间中最相似的

2020-10-23 20:27:53 129 1

原创 新制度会计学研究学习笔记2:基于中华文化的治理学新探:彷徨在现代与传统之间的迷思

这是今天听完报告后,随便写的一些东西,有些杂乱,就做一个笔记,方便日后翻阅。6月19日听了黄德尊教授报告的新制度会计学主题:Bridging Relational Networks and Markets in Emerging Economies今天10月23日,继续去听了陈冬华教授报告的文化(儒家文化)方面的报告。因为本人知识储备量非常不够,对传统文化的了解不是很深,所以~不过,我对陈老师在报告最前的一句话,大概是“我们一直信以为真的,可能是最值得我们深思的”,很揣味。这句话应该是来自笛卡尔的《第

2020-10-23 16:40:08 60

原创 python机器学习 | 入门介绍

最近在接触机器学习这一块的内容,不知道能学到哪个程度。先简单地介绍它到底是什么?python学习入门介绍1 机器学习基本介绍2 机器学习分类3 机器学习模型评估1 机器学习基本介绍(1)定义:机器学习是从数据中自动分析获取模型,并利用模型对未知数据进行预测。(2)工作流程通常可以分为下面这几个步骤:搜集数据–数据进行基本处理–利用训练集提取特征(特征工程)–利用训练集机器学习–使用预测数据集模型评估1)获取数据:数据来源:爬虫、数据库等等数据类型:有目标值+连续(如房价、身高等)、有目

2020-10-18 23:07:25 40

原创 MySQL学习| python与MySQL交互

上一篇博客主要讲了SQL的环境和语法,这一篇主要学习的是python和MySQL如何交互。先搬上数据,作为准备-- 创建 某宝 数据库CREATE DATABASE `mb` CHARSET=utf8;USE `mb`;CREATE TABLE goods( id INT UNSIGNED PRIMARY KEY AUTO_INCREMENT NOT NULL, NAME VARCHAR(150) NOT NULL, cate_name VARCHAR(40) NOT NULL,

2020-10-15 16:12:52 16

原创 MySQL学习|语法入门介绍

之前在一篇文章里面讲过非关系型数据库python爬虫之Scrapy介绍七——Redis内存数据库使用介绍。这篇博客我们来介绍一下关系型数据库,主要是以MySQL为主进行练手。回顾一下关系型数据库:关系型数据库是由多张能互相联接的二维行列表格组成的数据库。当前主流的关系型数据库有Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等。语法入门介绍1 MySQL介绍与安装1.1 MySQL介绍1.2 MySQL安装以及图形界面管理器2 MySQL语法

2020-10-15 12:51:38 10

原创 python金融量化分析 | 闲杂笔记

最近事情好像有点多,处理得心不在焉。之前国庆计划把张五常老师的经济解释卷二,但也是只把第三章生产的成本看了一下,哈哈~这是一篇python金融量化分析的闲杂且入门的笔记,感觉学习价值较低,我只是记一下我码的代码,怎么说。我也是刚刚接触这一块,后面有时间再看看书深入学习一下吧~1 金融基础再基础的粗略介绍(1)金融:金融就是对现有资源进行重新整合之后,实现价值和利润的等效流通。(2)金融工具:金融工具是在金融市场中可交易的金融资产。主要分为股票、期货、黄金、外汇、基金、债券等。(3金融分析:基本

2020-10-10 15:23:26 134

原创 断点回归(regression discontinuity design)学习笔记

本篇博文主要是对断点回归的一些学习和总结~学习材料如下:1 断点回归设计RDD分类与操作案例2 RDD断点回归, Stata程序百科全书式的宝典3 断点回归设计的前沿研究现状, RDD4 让“跳跃”更有意义:断点回归设计(RDD)5 Stata: 断点回归 (RDD) 教程6 怎么用通俗的语言解释断点回归?它与DID的区别是什么7 Watering Down Environmental Regulation in China,Guojun He, Shaoda Wang, Bing Zhan

2020-09-29 10:04:04 741

原创 python数据分析 | seaborn绘图学习

1 seaborn介绍和安装(1)介绍:Seaborn 是一个基于 matplotlib 且数据结构与 pandas 统一的统计图制作库。他提前已经定义好了一套自己的风格。然后也封装了一系列的方便的绘图函数,之前通过matplotlib需要很多代码才能完成的绘图,使用seaborn可能就是一行代码的事情。(2)安装通过pip :pip install seaborn通过anaconda: conda install seaborn(3)内容包括关系型绘图分类型绘图分布型绘图线性关系绘

2020-09-25 13:24:16 64

原创 python数据分析 | Matplotlib3D绘图

Matplotlib3D绘图1 导入模块2 3D曲线图3 散点图4 平面图5 曲面图1 导入模块from matplotlib import pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3D%matplotlib notebook # 在notebook展示和旋转图片2 3D曲线图# 将 0-15 分为 1000份zline = np.linspace(0,15,1000)xline = np.

2020-09-25 10:33:24 44

原创 读书笔记 | 张五常 经济解释 (卷一) 科学说需求

之前在周老师的研讨会群看到这本书的分享,顺道保存下来。慢慢看,卷一的阅读,阅读了一个月,中间也是断断续续。读的过程也是有些不懂和磕绊。卷一的思路,个人理解是:1.科学研究的态度与方式2.经济学研究要有一个共识:人都是自私的3.经济学的基础“要素:(不知道这样说是否合适):物品是什么 – 物品缺乏的现象 – 现象引起竞争 – 竞争需要游戏规则 – 竞争准则决定胜负4.陆续进入本文主题需求引出功用 – 功用与需求定律关系 – 评价功用在需求定律的作用 – 需求在市场的例子 – 等本卷中,对特里芬

2020-09-19 16:41:55 116

原创 学习笔记 | 内生性全面介绍

一直以来,对内生性的理解都是似懂非懂,就像是蒙着一层黑纱,哈哈~所以,今天上午把关于内生性的知识认真地看了一遍,梳理了一遍,总结一下,方便后面学习。内容包括三大块:内生性来源、解决、典型例子主要学习的内容有:[1] 计量分析中的内生性问题综述,一篇不得不读的经典作品[2] 金融学里的内生性和外生性是什么意思?[3] 内生性的通俗解释[4] 内生性” 到底是什么鬼? New Yorker告诉你[5] 内生性问题及其产生原因以上文章都推荐阅读,本人从[1]、[2]、[3]中学习颇多。1 内生

2020-09-14 20:55:46 486

原创 Fama三因子和Carhat 四因子的介绍和计算

这篇文章介绍了Fama 三因子和Carhat 四因子,主要是在介绍Fama三因子,因为Carhat四因子,只是三因子的拓展。并且,计算方法是我对两篇文章的学习注解,可以先去看原文章。本篇文章学习参考资料有:[1] 刘媛媛. 中国股票市场的有效性实证研究[D].西南财经大学,2012.[2] 张庄昊. 改进动量因子的四因子量化投资方案策划[D].上海师范大学,2018.[3] Carhart四因子模型A股实证(附源码)[4] Fama-French三因子回归A股实证(附源码)先唠叨一下自己的一些

2020-09-13 09:45:44 234

原创 python数据分析 | Pandas全面介绍及使用(3)

Pandas全面介绍及使用1 索引与分层索引1.1 分层索引的引出1.2 分层索引的一些应用2 数据合并2.1 df_l.join2.2 pd.merge2.3 pd.concat3 数据分组与聚合3.1 分组3.2 聚合3.2.1 自带的聚合函数3.2.2 自定义的聚合函数3.2.3 分组块上的应用函数3.2.4 其它的分组形式4 时间序列4.1 时间序列基础4.2 生成时间序列函数4.3 时间序列的索引及选择数据4.4 移位日期4.5 重采样5 pandas绘图import pandas as pd

2020-09-12 13:58:52 25

原创 python数据分析 | Pandas全面介绍及使用(2)

Pandas全面介绍及使用1 DataFrame的运算1.1 DataFrame间的算术运算1.2 DataFrame的算术方法1.3 函数应用于映射1.4 DataFrame的排序1.5 描述性统计概述和计算2 DataFrame数据清洗2.1 缺失值2.1.1 判断数据是否为NaN2.1.2 过滤缺失值2.1.3 补全缺失值(NaN)2.2 异常值2.3 重复值2.3.1 判断重复值2.3.2 删除重复值3 离散化4 利用映射转换数据5 重命名轴索引6 向量化字符串函数7 计算虚拟变量1 DataF

2020-09-06 21:03:32 78

原创 python换源安装 pip install

换源安装,将国外镜像换成国内镜像,加快安装速度。• 国内镜像:• 阿里云 http://mirrors.aliyun.com/pypi/simple/• 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/• 豆瓣(douban) http://pypi.douban.com/simple/• 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/• 中国科学技术大学 http://pypi.mirrors.ustc

2020-09-06 16:27:10 50

原创 ArcGIS | ArcGIS10 构成介绍

1 ArcGIS 功能定位和基础架构1.1 功能定位ArcGIS 是目前最流行的地理信息系统平台软件,主要用于创建和使用地图,编辑和管理地理数据,分析、共享和显示地理信息,并在一系列应用中使用地图和地理信息。它作为一套完整的GIS 产品,为用户提供了丰富的资源,包括地图、应用程序、社区和服务等。地图:表示地理信息的传统手段。应用程序:提供了从桌面端、服务器端、移动端直至云端的GIS 产品。社区:所有类型和级别的用户都能参与创建和共事地图及应用程序。服务:使所有尚未安装GI S 软件的用户得以

2020-09-04 20:37:14 58

原创 ArcGIS | ArcGIS 安装及学习资源

最近,因为用python画地图的时候,会受到一些障碍,所以我决定开始学arcgis。开始的意思就是刚刚安装了arcgis,哈哈~虽然不知道这个软件,我是不是会坚持学下去,但是还是整理一下他的一些资源,嘿嘿~Arcgis安装及学习资源1 ArcGIS安装2 Arcgis学习资源1 ArcGIS安装(1)介绍:ArcGIS 是一套完整的专业GIS应用软件,包含一套带有用户界面的Windows桌面应用程序。可以实现从简单到复杂的GIS任务,如制图、地理分析、数据编辑、数据管理、可视化和空间处理等。(2)

2020-09-04 19:36:48 105

原创 python数据分析 | Pandas全面介绍及使用(1)

Pandas全面介绍及使用1 Pandas 的介绍和安装2 Pandas中Series的数据结构介绍2.1 Series的介绍2.2 Series的创建2.3 Series的索引与切片2.3.1 Series的索引与值2.3.2 Series的索引与切片2.4 Series 的运算3 Pandas中DataFrame的数据结构介绍3.1 DataFrame介绍3.2 DataFrame创建3.3 DataFrame基础操作3.4 DataFrame的增删改查3.4.1 DataFrame的查3.4.3 Da

2020-09-04 11:25:58 132

原创 python数据分析 | numpy全面介绍及使用

本篇博客讲的是numpy,一个数据分析中我们常常接触和使用的模块,下面开始正文吧~numpy介绍及使用1 numpy介绍和安装2 Numpy的基础使用2.1 创建N-维数组对象2.2 数组的数据类型2.3 数组形状2.4 重塑数组形状2.5 数组转置与换轴2.6 数组拷贝2.7 创建数组其他函数3 Numpy的数组算术3.1 数组与标量的算术操作3.2 两个等尺寸数组的算术操作3.3 广播机制3.4 数组拼接4 数组索引和切片4.1 一维索引与切片4.2 二维的数组切片4.3 修改数组当中的值4.4 满

2020-08-29 09:16:56 71

原创 论文笔记 | The Life Cycle of Corporate Venture Capital

这是一篇博士毕业论文,主要讲的是为什么企业会去做风投?

2020-08-26 19:40:14 37

原创 python数据分析 | csv,json,xls文件读写

前面有一篇博客比较详细地讲了文件操作python之文件操作介绍这一篇博客会简单提及一下,重点主要落于学习和回顾csv,json,xls等各类文件读写文件读写1 文件操作回顾2 Python操作json文件3 Python操作csv文件4 Python操作excel文件1 文件操作回顾文件操作:可以回顾此篇博客:python之文件操作介绍(1)对文件(File)进行输入和产出的操作(IO Input/Output),即通过Python程序对计算机的各种文件进行增删改查的操作(2)操作文件的步骤

2020-08-24 19:12:46 48

原创 python数据分析 | Matplotlib全面介绍及使用

这篇博文主要是介绍Matplotlib模块的使用,具体包括用途介绍、安装、常用绘图以及配置操作。Matplotlib全面介绍及使用1 Matplotlib 介绍及安装2 figure使用3 子图的绘制3.1 subplot()3.2 plt.subplots()3.3 add_subplots()和add_axes()3.3.1 add_subplot()新增子图3.3.2 add_axes()新增子区域4 Matplotlib绘制图形4.1 绘制图形的中文显示问题4.2 折线图4.3 散点图4.4 条形

2020-08-18 12:01:34 1897

原创 python数据分析 | Jupyter Notebooks 的介绍和使用

这是python数据分析的学习部分啦~由于数据分析,涉及到绘图、计算撒的,所以我转向用Jupyter编辑器的使用,在很前面的一篇博客也介绍了怎么安装Python 、 PyCharm 、 Anaconda 介绍及安装当然也可以不用通过 Anaconda,可以直接通过pip install jupyter命令直接安装呀,下面就开始较详细介绍一下Jupyter Notebooks好啦,正文开始1 Jupyter Notebooks 入门1.1 介绍介绍:Jupyter Notebooks 是一款开源

2020-08-17 11:48:44 131

原创 python爬虫之MongoDB——MongoDB与python的交互

1 pymongo安装pip install pymongo2 连接数据库方式一client = MongoClient()方式二 指定端口和地址client = MongoClient('localhost',27017)方式三 使用URI 不是URLclient = MongoClient('mongodb://localhost:27017/')3 增删查改3.1 新增数据from pymongo import MongoClientfrom datetime impor

2020-08-02 11:38:20 51

原创 python爬虫之MongoDB——MongoDB的基本使用

MongoDB的基本使用1 数据库命名规范2 MongoDB的增删改查2.1 MongoDB插入数据2.2 MongoDB的保存2.3 MongoDB查询数据2.4 MongoDB修改数据2.5 MongDB删除数据1 数据库命名规范1.不能是空字符串2.不得含有特殊字符3.应全部小写4.最多64个字节5.数据库名不能与现有系统保留库同名,如admin,local2 MongoDB的增删改查mongoDB中一张表称为一个集合 use student # 转到student数据库2.1

2020-08-02 11:09:50 60

原创 python爬虫之MongoDB——MongoDB的入门介绍

前面讲了Redis数据库,本文介绍的是MongoDB。1 MongoDB用途和安装1.1 用途它是一个基于分布式文件存储的nosql数据库。在处理大数据的时候会比MySQL更有优势。爬虫的数据如果上了一个量级,可能用MongoDB会比MySQL更好。1.2 优势1.无数据结构限制• 没有表结构的概念,每条记录可以有完全不同的结构• 业务开发方便快捷如:{name:'小明',sex:'男'}{name:'居然',address:'东北'}{name:'小红',home:[{'山东'}

2020-08-02 10:36:05 63

原创 python爬虫之Scrapy介绍九——scrapyd部署scrapy项目

1 scrapyd的介绍scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们所谓json api本质就是post请求的webapi网址:https://scrapyd.readthedocs.io/en/latest/1.1 scrapyed安装scrapyd服务端安装:pip install scrapydscrapyd客户端安装:pip install

2020-07-20 17:47:35 64

原创 python爬虫之Scrapy介绍八——Scrapy-分布式(以爬取京东读书为示例)

Scrapy-分布式(scrapy-redis)介绍1 Scrapy-分布式介绍1.1 Scrapy-redis工作原理1.2 Scrapy-redis 安装和基本使用1.2.1 安装1.2.2 基本使用2 Scrapy转为Scrapy-分布式2.1 scrapy爬取京东读书2.2 改为Scrapy-分布式1 Scrapy-分布式介绍1.1 Scrapy-redis工作原理首先回顾一下Scrapy的工作流程,然后进一步介绍Srapy-分布式的工作流程和原理。(1)Scrapy的工作流程详见:pyt

2020-07-15 16:29:25 153

原创 倾向匹配得分PSM学习笔记

一直在想写倾向匹配得分PSM学习笔记,好好总结一下。但一直拖着,对倾向匹配得分法虽然思想比较理解,但没有系统地学习,所以这篇博客总结一下老师们的一些文章,在总结中学习,哈哈~1 产生背景参考学习文章:【内容回顾】倾向性评分匹配流行病学病因研究中,为了探讨某因素(处理或干预,后统称“处理因素”)与结局(如疾病)的关系,需要设立对照组进行比较。但对照组的重要特征是具备可比性,即除某因素外,其他因素相同,不会干扰处理因素和结局。因为如果研究人群中存在一个或多个既与观察结局有关,又与处理因素有关的外来因素,

2020-07-15 11:47:49 2527 1

原创 python爬虫之Scrapy介绍七——Redis内存数据库使用介绍

1 数据库的发展历史随着互联网+大数据时代的来临,传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力,来解决系统性能上的瓶颈。(1)单数据库实例:在互联网+大数据时代来临之前,企业的一些内部信息管理系统,一个单个数据库实例就能满足系统的需求(2)缓存(memcache)+单数据库实例:随着系统访问用户的增多,数据量的增大,单个数据库实例已经满足不了系统的读取需求。(3)缓存+主从数据库+读写分离:缓存可以缓解系统的读

2020-07-14 12:02:12 79

原创 python爬虫之Scrapy介绍六——下载图片或者文件

本篇博文主要介绍利用scrapy内置的下载模块来下载文件和图片。相对于自己撰写的代码,它具有如下特点:1:避免重新下载最近已经下载过的数据2:可以方便的指定文件存储的路径3:可以将下载的图片转换成通用的格式。如:png,jpg4:可以方便的生成缩略图5:可以方便的检测图片的宽和高,确保他们满足最小限制6:异步下载,效率非常高1 Scrapy下载图片使用images pipeline 下载文件步骤:1) 定义好一个Item,然后在这个item中定义两个属性,分别为image_urls以及im

2020-07-04 10:54:06 114

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除