自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Python回归分析五部曲(一)—简单线性回归

回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔顿首先提出来的,他在研究人类身高的时候发现:高个子回归人类的平均身高,而矮个子则从另一方向回归人类的平均身高;整体逻辑回归分析(Regression Analysis)研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量 x_i(i=1,2,3… …)之间的回归模型,来预测因变量y的发展趋向。回归分析的分

2017-12-23 10:10:51 38724

原创 Python数据抓取(3) —抓取标题、时间及链接

(一)抓取第一财经数据板块文章 本次分享,jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来1.观察元素抓取位置网页的原始码很复杂,我们必须找到特殊的元素做抽取,怎么找到特殊的元素呢?使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔,我们可以知道可以透过dl-item提取一个一个的列表,既然知道我们要存储的位置在 dl-item下,我们就可以把dl-item下

2017-12-19 10:59:04 3803

原创 Python数据抓取(2) —简单网络爬虫的撰写

(一)使用Requests存储网页Requests是什么?网络资源(URLs)抓取套件优点?改善urllib2的缺点,让使用者以最简单的方式获取网络资源可以使用REST操作(POST,PUT,GET,DELETE)存取网络资源import requestsresponse = requests.get('http://blog.sina.com.cn/lm/stock/')print(r

2017-12-17 15:44:04 1063

原创 Python数据抓取(1) —数据处理前的准备

数据抓取概要为什么要学会抓取网络数据?对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如果我们能想出办法,把这些非结构化的数据转化为结构化的数据,在跟自己的本地数据库做匹配,做交叉分析,让它们关联起来,从而我们就能提炼出我们需要的有价值的数据。如何将非结构化的数据转化为结构化的数据呢?必须通过E

2017-12-03 10:57:49 620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除