2017年12月_朱元禄

12月 11月 10月 09月 08月 07月

原创 Python回归分析五部曲（一）—简单线性回归

回归最初是遗传学中的一个名词，是由英国生物学家兼统计学家高尔顿首先提出来的，他在研究人类身高的时候发现：高个子回归人类的平均身高，而矮个子则从另一方向回归人类的平均身高；整体逻辑回归分析（Regression Analysis）研究自变量与因变量之间关系形式的分析方法，它主要是通过建立因变量y与影响它的自变量 x_i(i=1,2,3… …)之间的回归模型，来预测因变量y的发展趋向。回归分析的分

2017-12-23 10:10:51 38724

原创 Python数据抓取（3） —抓取标题、时间及链接

（一）抓取第一财经数据板块文章本次分享，jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来1.观察元素抓取位置网页的原始码很复杂，我们必须找到特殊的元素做抽取，怎么找到特殊的元素呢？使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔，我们可以知道可以透过dl-item提取一个一个的列表，既然知道我们要存储的位置在 dl-item下，我们就可以把dl-item下

2017-12-19 10:59:04 3803

原创 Python数据抓取（2） —简单网络爬虫的撰写

（一）使用Requests存储网页Requests是什么？网络资源（URLs）抓取套件优点？改善urllib2的缺点，让使用者以最简单的方式获取网络资源可以使用REST操作（POST,PUT,GET,DELETE）存取网络资源import requestsresponse = requests.get('http://blog.sina.com.cn/lm/stock/')print(r

2017-12-17 15:44:04 1063

原创 Python数据抓取（1） —数据处理前的准备

数据抓取概要为什么要学会抓取网络数据？对公司或对自己有价值的数据，80%都不在本地的数据库，它们都散落在广大的网络数据，这些数据通常都伴随着网页的形式呈现，这样的数据我们称为非结构化数据如果我们能想出办法，把这些非结构化的数据转化为结构化的数据，在跟自己的本地数据库做匹配，做交叉分析，让它们关联起来，从而我们就能提炼出我们需要的有价值的数据。如何将非结构化的数据转化为结构化的数据呢？必须通过E

2017-12-03 10:57:49 620

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人