![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
chenpe32cp
大道至简
展开
-
处理不平衡数据集的八种策略
原文 http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 相关连接(python) https://github.com/scikit-learn-contrib/imbalanced-learn ` http://ww转载 2017-05-21 15:47:41 · 2540 阅读 · 0 评论 -
python如何实现基于user_id分组将item多行转为一行(类似于hive中的concat_ws功能)
举例:pandas中,将如下形式的data1转换为 data2?data1:user item A a A b A c B a B d data2:user item A [a,b,c] B [a,d] hive中可直接使用concat_ws函数,python中暂时没有找到可以直接用的函数,...原创 2018-12-20 21:32:50 · 894 阅读 · 0 评论 -
pandas获取groupby分组里最大值所在的行方法
本文转载自此文,感谢楼主的耐心分享如下面这个DataFrame,按照Mt分组,取出Count最大的那行 1 2 3 4 import pandas as pd df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s...转载 2018-09-07 11:02:24 · 14451 阅读 · 10 评论 -
python自动发邮件总结
本文转载于此链接,感谢作者的耐心讲解(有些小错误,已修复)python发邮件需要掌握两个模块的用法,smtplib和email,这俩模块是python自带的,只需import即可使用。smtplib模块主要负责发送邮件,email模块主要负责构造邮件。smtplib模块主要负责发送邮件:是一个发送邮件的动作,连接邮箱服务器,登录邮箱,发送邮件(有发件人,收信人,邮件内容)。email模...转载 2018-09-07 10:57:40 · 871 阅读 · 0 评论 -
python 自动发送邮件报表,正文插入图片,带附件
# -*- coding: utf-8 -*-"""Created on Wed Aug 15 17:44:33 2018@author: cp"""from email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.image import MIME...原创 2018-09-11 14:51:02 · 9882 阅读 · 0 评论 -
格式化和清洗数据的 Python 工具包
本文转载于此链接,学习一下世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。告诉我们你觉得有用的库——我们一...转载 2018-08-28 14:48:27 · 363 阅读 · 0 评论 -
python json中dump、dumps、load、loads的用法与区别?
"""Python3 JSON模块的使用本文转载于https://blog.csdn.net/kassadinsw/article/details/73912645参考链接:https://docs.python.org/3/library/json.html"""import json# 自定义了一个简单的数据(Python中的字典类型),要想Python中的字典能够被序列化到...转载 2018-08-27 19:34:01 · 597 阅读 · 0 评论 -
hive group by distinct区别以及性能比较
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论证...转载 2018-08-15 11:44:01 · 854 阅读 · 0 评论 -
谈谈评价指标中的宏平均和微平均
转自本文今天在阅读周志华老师的《机器学习》一书时,看到性能度量这一小节,里面讲到了宏平均和微平均的计算方法,这也是我一直没有很清晰的一个概念,于是在看了之后又查阅了一些资料,但是还是存在一些问题,想和大家分享一下。(1)召回率、准确率、F值对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为:真正例(True Positive,TP):真实类别为正例,预测类别为正例。假正例(False P...转载 2018-03-29 17:04:41 · 1323 阅读 · 0 评论 -
常用的特征选择算法介绍
结合Scikit-learn介绍几种常用的特征选择方法原文 http://dataunion.org/14072.html主题 特征选择 scikit-learn特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减...转载 2018-03-21 19:44:07 · 25532 阅读 · 0 评论 -
特征哈希(Feature Hashing)
转载,原文地址请点击这里在特征处理(Feature Processing)中我介绍了利用笛卡尔乘积的方法来构造组合特征。这种方法虽然简单,但麻烦的是会使得特征数量爆炸式增长。比如一个可以取N个不同值的类别特征,与一个可以去M个不同值的类别特征做笛卡尔乘积,就能构造出N*M个组合特征。特征太多这个问题在具有个性化的问题里尤为突出。如果把用户id看成一个类别特征,那么它可以取的值的数量就等于用户数。把...转载 2018-03-30 10:02:00 · 8464 阅读 · 5 评论 -
特征处理(Feature Processing)
网上看到两篇好文章,转过来学习一下,查看原文请点击这里特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征工程中的一小部分。这部分比较基础,...转载 2018-03-30 09:59:42 · 284 阅读 · 0 评论 -
如何判断DataFrame中是否有缺失值?
import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10,6))# Make a few areas have NaN valuesdf.iloc[1:3,1] = np.nandf.iloc[5,3] = np.nandf.iloc[7:9,5] = np.nandf.isnull().any()原创 2017-10-30 22:17:07 · 28766 阅读 · 0 评论 -
python 画饼图时如何调整图中字体的大小
本文转载自这里from matplotlib import pyplot as plt #调节图形大小,宽,高plt.figure(figsize=(6,9))#定义饼状图的标签,标签是列表labels = [u'第一部分',u'第二部分',u'第三部分']#每个标签占多大,会自动去算百分比sizes = [60,30,10]colors = ['red','yellowgr...转载 2019-02-21 17:50:37 · 31687 阅读 · 4 评论