数据分析
木水_
这个作者很懒,什么都没留下…
展开
-
Python 库学习笔记——分组计算利器:pandas 中的 groupby 技术
最近处理数据需要分组计算,又用到了groupby函数,温故而知新。 分组运算的第一阶段,pandas 对象(无论是 Series、DataFrame 还是其他的)中的数据会根据你所提供的一个或多个键被拆分(split)为多组。拆分操作是在对象的特定轴上执行的。例如,DataFrame 可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用到各个分组并...原创 2017-10-10 23:54:12 · 1575 阅读 · 0 评论 -
Python 批量读取 txt 文件为 DataFrame
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的 txt 文件,我该如何把它们写入一个 txt 文件中并且读取为 DataFrame 格式呢?首先我们要用到 glob 模块,这个python内置的模块可以说是非常的好用。glob.glob('*.txt')得到如下结果:all.txt 是我最后得...原创 2017-09-20 14:48:03 · 24014 阅读 · 12 评论 -
爬虫实战(1)——爬取校内网招聘信息的名称
最近焦虑感比较强,在思考自己以后从事的工作,与其凭空思考,不如来看点实际的数据,于是爬取了校内网的招聘信息研究下。 编写爬虫之前,我们需要先思考爬虫需要干什么、目标网站有什么特点,以及根据目标网站的数据量和数据特点选择合适的架构。编写爬虫之前,推荐使用Chrome的开发者工具来观察网页结构。在Windows和Linux,对应的快捷键是"F12"。效果如下:OK,可以看出,...原创 2017-09-19 10:38:39 · 1035 阅读 · 0 评论 -
R语言写简单线性回归
library(MASS) library(ISLR)lm(y~x,data)函数拟合简单的线性回归模型lm.fit <- lm(medv~lstat,data=Boston) attach(Boston) lm.fit = lm(medv~lstat) summary(lm.fit) coef(lm.fit) confint(lm.fit) predict(lm.fit,data.f原创 2017-06-15 09:54:34 · 1498 阅读 · 0 评论 -
Python 库学习笔记——爬虫常用的BeautifulSoup的介绍
1. 开启Beautiful Soup 之旅在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考。官方文档2. 创建 Beautiful Soup 对象首先必须要导入 bs4 库 from bs4 import BeautifulSoup转载 2017-09-13 16:33:34 · 630 阅读 · 0 评论 -
Python 库学习笔记—— BeautifulSoup 处理子标签、后代标签、兄弟标签和父标签
首先,我们来看一个简单的网页https://www.pythonscraping.com/pages/page3.html,打开后:右键“检查”(谷歌浏览器)查看元素:用导航树的形式简单表示出来:可知:tr 是 table的子标签tr、th、td、img、span 标签都是 table 的后代标签 一般情况下,bbs0bj.body.h1 选择的是 body 标...原创 2017-09-07 20:16:51 · 32322 阅读 · 1 评论