自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

htuhxf的博客

千里之行始于足下

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

转载 ML:Bagging、Boosting是啥 & 他们的Err特点

全是网上内容摘录。名称:术语“Bootstrap”怎么起源?引用2011年百度文库没标注作者:术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps”源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他 想到了拎着鞋带将自己提起来。Bagging...

2018-11-29 18:25:49 283

翻译 翻译 python:入门 - 数据预处理 - pandas行列的删除和改名.DataFrame.drop .DataFrame.rename

官方文档链接:这里。DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')功能:从DataFrame里边按行或按列删除指定的对象(labels);labels:要删除的对象。PS:多个对象用列表输入;axis:默认删除行。可选参数2个,...

2018-11-28 19:23:35 550

转载 ML:图解Error = Bias^2 + Var + Irreducible Error

一、怎么举个例子理解误差公式的三个部分?即误差Err / 偏差Bias / 方差Var / 不可避免的标准差之间,是什么关系? 先上结论: 误差来源有三个:Irreducible Error,即不可避免误差部分,刻画了当前任务任何算法所能达到的期望泛化误差的下限,即刻画了问题本身的难度; Bias,即偏差部分,刻画了算法的拟合能力,Bias偏高表示预测函数与真实结果相差很大;...

2018-11-28 15:39:09 2718 2

翻译 翻译 python:进阶 - 数据预处理 - pandas - 实现EXCEL的VLOOKUP功能

官方文档这里。DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)[source]功能:在多个DataFrame之间通过list进行join操作。other : 即要jion的其他对象。可以是 DataFrame、 Series 集合、或者DataFrame列表;这些对象要和手头的...

2018-11-27 19:18:17 19056

翻译 翻译 python:进阶 - 数据预处理 - 数据提取 - 使用DataFrame.isin()实现EXCEL的精确筛选功能

原文链接在此处理数据方面,Python最重要的一个包就是Pandas,所以尽量使用pandas来处理更多的问题我觉的是最合适的。 DataFrame.isin(values)功能:来查看参数values是否在Series/Data Frame里边,是的话就返回按DataFrame分布布尔值True,否则Falsevalues: Series, List, Tuple, DataFram...

2018-11-27 15:16:15 6230

翻译 python: 进阶 - 数据预处理 - 数据提取 - 使用str.contains()实现EXCEL的模糊匹配筛选功能

例如:我们手头有>1百万行数据的销售表haha.csv,要筛选所有和客户,比如中国移动,有关的销售记录。怎么做?Excel:首先:打开文件,点击“筛选”;然后:在列“customer_name”下拉框,输入关键词中国移动;最后:点击点击“确定”,得到所有含有中国移动的的记录;Python:第一步:读取文件;第二步:设定筛选条件;第三步:打印/输

2018-11-26 16:32:27 19337 4

原创 python: 进阶 - 数据预处理 - 数据清洗 - 使用正则表达式,完成类似EXCEL的替换功能

立个flag:不断优化语句,不间断更新。第一版:例如我们有内容如下的 haha.csv表。现在我想把含有移动的字段替换成另一个东西,比如你想换成yidong好了。怎么做呢?Excel: 首先,我们“ctrl + h”调出查找替换对话框;然后,设定要查找的为移动*,要替换的为yidong;最后,点击确认就好了。Python: python的思路大致相同思路。第一步,查找含有 移动...

2018-11-26 11:02:57 2189

翻译 Python:入门 - 数据预处理 - 正则表达式 之 通配符

官方文档链接:docs.python.org/3library/re.:除了换行符,可匹配任意一个字符;+:1 或者任意个字符;*:0或任意个字符;?:0或一个字符;*[HTML]:RE. ab? 可以匹配‘a’或者 ‘ab’。*?、+?、??:{}{}~:从string的开头进行匹配;$``...

2018-11-20 14:54:23 821

翻译 python: 入门 - 数据预处理 - 数据清洗 - (翻译python for data analysis 2nd Edition)正则表达式处理字符串

Resource: Pyhon for Data Analysis 2nd Edition by Wes MaKinney p213 -p216**正则表达式(Regular expressions)**提供一种方便灵活的方法来搜索、(复杂的)匹配文本中的字符串格式。单一的表达式,一般曾称作regrex,是根据“正则表达式语言”编译的一串字符。Python内置的re模块负责正则表达式的应用执行...

2018-11-19 18:02:24 1551

原创 python 可视化:多字段&嵌套的圆环饼图

matplotlib.pyplot.pie官方文档点击这里(英)/ 翻译点击这里。先看自定义函数:这是一个最大层数为2的嵌套饼图,并且输出3个字段的不同排列对应的嵌套饼图:import pandas as pdimport matplotlib.pyplot as pltdef all_nested_pie(): plt.rcParams['font.family'] = ...

2018-11-16 19:08:15 3724

原创 Python 可视化:透视数据 - 用input()函数设置交互界面,省去重复读取csv步骤?

对于数据表,我们常常要对不同字段汇总分析。比如汇总每个客户的收入:import pandas as pdimport matplotlib.pyplot as pltdef pie(): plt.rcParams['font.sans-serif'] = ['SimHei'] data = df.groupby('比如字段"客户名称"'['"比如汇总字段"收入"']...

2018-11-16 17:45:19 449

原创 数据分析:常用工具有哪些?数据分析和数据挖掘的区别是什么?数据分析的应用场景有哪些?

作为常识,数据分析中至少80%的时间都用在数据预处理,分析、建模、测试等工作占比不到20%。

2018-11-16 15:42:35 1459

翻译 翻译 可视化:plt.subplot()透视 表&图一个窗口输出

分2种情况:第一种,在一个ax上画图&表格;第二种,图和表分开画。

2018-11-12 11:59:09 1840

原创 python笔记:清楚理解判断语句if __name__ == "__main__"

if __name__ == "__main__":应该怎么样理解呢?stackoverfolow社区活动参考答案在这里。由 Mr Fooz在2009-1-17回答:首先,什么是 __name__?__name__是一个DunderAlisa。在module层面,定义全局变量(一个.py被称为一个module),功能和globle类似。 在module下直接运行(这时mod...

2018-11-09 18:45:53 248

hierarchical-clustering-with-python-and-scikit-learn-shopping-data.csv

hierarchical-clustering-with-python-and-scikit-learn-shopping-data.csv

2019-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除