自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Kmeans实践:自定义算法对天气数据进行分类

本文使用sklearn的KMeans方法对无标签数据集,天气数据集minute_weather进行处理,同时尝试自己编写Kmeans算法进行数据处理,对比两者差异,检查自定义算法可用性。数据集minute_weather可以在网上找找,笔者也是网上找到的,没有把地址记录下来。如果实在找不到可联系笔者私法。(csdn发文章不能带附件吗?)说明本次实验所使用的minute_weather数据集并不“干净”,所以先进行了数据清洗,其中“垃圾”数据包括空值数据,整列或整行为0的数据,最终由于数据过大无法有效

2020-07-06 16:45:02 5495

原创 爬虫实践:通过百度地图API获取省份公园数据

目标通过百度地图Web服务API获取中国所有城市的公园数据,并且获取每一个公园具体的评分、描述等详情,最终将数据存储到MySQL数据库中。实践准备百度地图Place API的地址为http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-placeapi开始前需要获取API秘钥(注意个人调用权限)需要使用库 requestsjsonMySQLdb项目实施(1)获取所有拥有公园的城市,并存储至TXT。(2)获取所有城市

2020-07-06 15:21:15 3004

原创 数据分析实践:航空公司客户价值分析

信息时代的来临使得企业营销焦点从产品转向了客户,客户关系管理,而客户关系管理的关键问题是客户分群。通过客户分群,区分无价值客户和高价值客户。本次利用获取到的航空公司客户数据,结合RFM模型,采用K-Means聚类算法,分类出不同具有客户价值分群,以此学习kmeans算法的实际运用。实现目标(1)对原始数据集进行分析,提取我们需要使用的数据(2)对抽取的数据进行数据清洗、特征构建和标准化等操作。(3)基于RFM模型,使用K-Means算法进行客户分群。(4)针对模型结果得到不同价值的客户。实现

2020-07-06 16:08:26 1576 2

原创 爬虫实践:获取微博热搜词汇统计

目标通过akshare API获取微博热搜词汇统计,并将数据可视化用于分析实践准备开始前需要安装akshare,有关akshare的安装与使用参考《akshare文档》需要使用到的库:pylab #用于可视化pandas #用于数据处理项目实施获取指定热搜词信息将数据进行简单的可视化对数据进行分析,这里没有进行拓展,感兴趣的可查看我的知乎文章《疫情数据重要转点分析》import akshare as akimport pylab as pltimport pandas as pd

2020-07-06 15:45:16 1128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除