python基于svm项目+课程设计报告_基于Python的数据分析实战项目

最新推荐文章于 2024-06-19 23:40:42 发布

weixin_39830387

最新推荐文章于 2024-06-19 23:40:42 发布

阅读量1k

点赞数

文章标签： python基于svm项目+课程设计报告

本文中项目资料来源于网易云课堂，代码为纯手工码字滴，请放心食用，不定期更新，欢迎对Python、数据分析以及编程感兴趣的同学留言沟通。

详细介绍了数十个数据分析相关的实战项目,大量使用pandas、numpy、matplotlib、seaborn以及bokeh等包,少量涉及sklearn中机器学习相关包,对一些诸如蒙特卡罗模拟思想使用代码加以实现,并详细讲述实现细节以及注意要点。

1 商铺数据加载及存储

1.1 项目要求

成功读取“商铺数据.csv”文件
解析数据，存成列表字典格式：[{'var1':value1,'var2':value2,'var3':values,...},...,{}]
数据清洗：
1. comment，price两个字段清洗成数字
2. 清除字段缺失的数据
3. commentlist拆分成三个字段，并且清洗成数字
结果存为.pkl文件

1.2 原始数据展示

通过爬虫在某点评APP上获取一下店铺数据,包含了7个字段,字段名及其对应的含义分别是：classify(店铺类别),name(店铺名),comment(点评人数),star(星级),price(平均消费),address(地址),commentlist(特定指标评分),以下为部分数据展示：

----- | ----- | ----- | ----- | ----- | ----- | -----

美食 | 泰国街边料理 | 74 条点评 | 准四星商户 | 人均￥48 | 黄兴路合生汇B2美食集市内 | 口味7.4 环境7.6 服务7.4

美食 | 壹面如故(苏宁生活广场店) | 265 条点评 | 准四星商户 | 人均￥21 | 邯郸路585号苏宁生活广场B1层 | 口味7.0 环境7.2 服务7.2

因为直接获取回来的数据并未进行数据清洗,因此存在以下几个问题：

文本数据存在多余的空格(或不可显示的制表符等),需要清除;
部分可以量化的指标需要转化为数值格式如星级等,另外平均消费字段中的价格也有多余的文本信息需要删除;
可选操作：通过将csv文件转存为pkl文件,不仅可以减少文件大小还可以一定程度对文件内容进行加密。

1.3 实际操作

1.3.1 读取数据

基于python有多种文件读取方式,其中较为常用的读取文本数据的方式如下所示：

with

其中第二个参数是指定文件操作方式：r(读取,rb二进制文件读取),w(写入,wb二进制文件写入),encoding参数为文件编码格式,一般包含中文的都选用'utf-8'编码格式。

另一种读取文件的方式是采用pandas提供的读取csv、xlsx等表格文件的方式:pd.read_csv(),pd.read_excel(),此外pandas还包含多种读取文件的方式如pd.read_sql()可以直接从数据库读取特定sql查询结果的数据,这里不做展开。

本项目我们采用read_csv方式快速读取原始数据,由于windows系统打开csv文件时会在文件开头添加一些字符,因此如果在用Python读取文件前打开过原始数据,则再次读取数据后第一个字段名就不再是原来的字段了,比如说第一个字段名是classify,那么在windows上使用office等软件打开过一次的文件第一个字段名将不再是 classify ,而是前面还有一个字符,因此我们应该尽量避免直接打开csv文件,或者在读取文件后重命名字段列表,如下所示：