![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python数据分析与挖掘
文章平均质量分 72
xuweiling_
这个作者很懒,什么都没留下…
展开
-
数据探索
一、数据质量分析:缺失值分析、异常值分析、一致性分析eg:异常值分析-箱型图#coding:utf-8import pandas as pdcatering_sale = './data/catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale, index_col=u'日期') #读取数据,指定"日期列为索引列d原创 2017-11-21 19:53:48 · 651 阅读 · 0 评论 -
[python]百度贴吧爬虫
爬取西安交通大学吧内容,并以['url':page_url,'title':title,'para':reply]形式存储到MongoDB数据库。原创 2017-12-26 09:26:02 · 671 阅读 · 0 评论 -
[DM实战]中医症型关联规则挖掘
1、发现中医症状间的关联关系和诸多症状间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。根据数据实现以下目标:1)借助三阴乳腺癌患者的病理信息,挖掘患者的症状与中医证型之间的关联关系。2)对截断治疗提供依据,挖掘潜性证素。2、数据获取:以问卷调查方式对数据进行收集,并将问卷信息整理成原始数据。(患者临床病理性息大部分都记录在纸张上,包含了患者的基本信息,原创 2018-01-13 19:46:22 · 1948 阅读 · 0 评论 -
[DM实战]基于水色图像的水质评价
1、背景与挖掘目标有经验的从事渔业生产的从业者可通过观察水色变化调控水质,以维持养殖体系水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断的,存在主管性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术是基于计算机视觉的,以专家经验为基础,对池塘水色进行优劣分级,实现对池塘水色的准确快速判别。2、从采集到原创 2018-01-14 17:05:22 · 1431 阅读 · 0 评论 -
[DM实战]电力窃漏电用户自动识别
1、从电力计量自动化系统、营销系统有选择性地抽取部分大用户用电负荷、终端报警及违约窃电出发信息等原始数据。2、对样本数据探索分析,剔除不可能存在窃漏电行为行业的用户,即白名单用户,初步审视正常用户和窃漏电用户的用电特征。 数据探索分析是对数据进行初步研究,发现数据的内在规律特征,有助于选择合适的数据预处理和数据分析技术。本案例主要采用分布分析和周期性分析等方法对电量数据进行数据探原创 2018-01-08 13:10:08 · 1384 阅读 · 0 评论 -
[DM实战]家用电器用户行为分析与事件识别
1、家用企业若能深入了解不同用户群的使用习惯,开发新功能,就能开拓新市场。厂商可从热水器智能操作和节能运行等多方面对产品进行优化。热水器厂商根据洗浴事件识别模型,对不同地区的用户的用水进行识别,根据识别结果比较不同客户群客户群的客户使用习惯、加深对客户的理解等。从而,厂商可以给不同的客户群提供最适合的个性化产品、改进新产品的智能化的研发和制定相应的营销策略。根据提供的数据实现以下目标:原创 2018-01-16 19:10:02 · 3023 阅读 · 0 评论 -
[DM实战]航空公司客户价值分析
1、背景与挖掘目标 信息时代的来临使得企业营销焦点从产品中心转变为客户中心,而客户关系管理的关键问题是客户分类。 面对市场激烈的竞争,通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的 营 销策略,对不同的客户群提供个性化的客户服务是必须和有效的,目前该航空公司已积累了大量的会员档案信息和其乘坐航 班记录,原创 2018-01-10 15:12:31 · 1788 阅读 · 0 评论 -
[tianchi]移动推荐算法大赛[二]
特征工程到底是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 上一篇文章中只是用原始数据抽出最简单的特征,使用最简单的特征来构建模型,最终的预测效果不是特别理想,因此基于user_id、item_id、category三大基...原创 2018-06-03 21:43:05 · 372 阅读 · 3 评论 -
[tianchi]移动推荐算法大赛[一]
天池大数据竞赛-移动推荐算法大赛 本博客实现最简单的用户购买行为预测流程:根据前一天的交互行为,预测第二天的购买行为。 1、查看、处理user表格和item表格import pandas as pdimport numpy as npuser_behavior_file = '../fresh_comp_offline/tianchi_fresh_comp_train_user....原创 2018-05-31 21:57:45 · 696 阅读 · 1 评论