自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 特征工程——数据清洗——字符串中数值特征提取(2)

在(1)的基础上,继续。 在本次练习中,由于数据特征主要存在文本中,表现为:数值型和类别型特征都存于字符串中。一边要进行数据清洗也要进行特征抽取。 对于字符串中提取数值或类别型特征,由(1)的尝试,主要是使用正则表达式(也尝试过进行切片,但该数据噪点较多,字符串也很不规范,不能建立统一的切片形式),通过循环语句不断去倒腾这些数据。因此,我们的目的就是从字符串中提取数值或类别型特征,写的程序主要...

2019-03-15 22:46:48 1503

原创 特征工程——数据清洗——字符串数值特征提取(1)

近期主要学习特征工程的数据清洗部分内容。通过实践过程发现了从来没有遇到的问题,也只是自己学习刚刚开始,对python的相关知识不够熟练。 数据来自于某数据集——北京房价预测的数据清洗实践。 导入数据集,并看数据信息,变量,数据类型等。 data = pd.read_csv('houseInfo_2018_09_10.csv') bj_data = data[data['region'] =...

2019-03-05 21:14:09 1627

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除