数据分析
文章平均质量分 50
michael_wq
这个作者很懒,什么都没留下…
展开
-
jupyter 导出 html 或者 pdf 如何隐藏/删除input行,只留下output
最近发现一个比较头疼的问题,jupyter导出的时候input有时候真的太长了,特别是用pandas和matplotlib处理表格和画图的代码其实放出来很多时候并没有什么意义。在网上找了半天的资料,试了一下要么不成,要么被自己的智商限制住????。突然想到其实导出的html可以去修改起源代码嘛,这样用javascript的DOM配合上函数不就能把input直接删掉么?特此尝试了一下,发现的确是ok的!可能不是最好的方法,但感觉基本满足我的需求了1. 首先导出HTML。2. 浏览器打开inspect原创 2021-12-12 10:22:38 · 841 阅读 · 0 评论 -
kaggle比赛学习总结-kaggle-2020-visualization-analysis
今天做kaggle一个比赛,学习到一些东西,特此记录。https://www.kaggle.com/subinium/kaggle-2020-visualization-analysis.unstack()当有一个一下数据会将Q2的内容展开,变成column,忽略sort_index(),这个只是来通过index排序,可以区分一下sort_values()。同理,如果从下面这个表用.stack(),就会变会上面那个表.sum(axis=1)当想对row求和的时候,或者其他运算的时候,不需原创 2021-01-20 22:11:24 · 245 阅读 · 0 评论 -
阿里云天池-AI训练营机器学习TASK2 - 朴素贝叶斯(Naive Bayes)
朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率,我们从一个摸球的例子来理解。我们有两个桶:灰色桶和绿色桶,一共有7个小球,4个蓝色3个紫色,分布如下图:从这7个球中,随机选择1个球是紫色的概率p是多少?选择过程如下原创 2020-12-24 15:49:25 · 146 阅读 · 0 评论 -
柱状图叠加
原创 2020-11-27 08:19:44 · 290 阅读 · 0 评论 -
dataframe中寻找一些字符串的方法
一般常用的有两个xxx.isin([‘a’, ‘b’])isin中的字符串要与columns里头的字符串完全匹配,才会返回True。不能只是一部分xxx…str.contains(’…’, na=False)contains只需要含有就可以,不需要完全一模一样,包含一部分就会返回True...原创 2020-11-26 08:17:31 · 2147 阅读 · 0 评论 -
python - function list generator
*args传递多个变量进来**kwargs传递个字典过来def func(**kwargs): for key, value in kwargs.items(): print(key + ':' + value)lambdamap(func, seq) 会遍历所有items在seq中⚠️:要使用list(xxxxx)来读取数据filter(func, seq)表达的是一个判断,返回为True的原数值list(map(lambda x : x % 2, range(10)))#原创 2020-11-11 07:49:21 · 157 阅读 · 0 评论 -
【solved】遇到一个matplotlib画图的问题-关于barplot排序画图
先说数据集现在想plot id VS market_cap_percTOP_CAP_TITLE = 'Top 10 market capitalization'TOP_CAP_YLABEL = '% of total cap'ax = plt.subplot()ax.bar('id', 'market_cap_perc', data=cap10)ax.set_xticklabels(cap10['id'], rotation=90)ax.set_ylabel(TOP_CAP_YLABEL)原创 2020-11-03 08:57:09 · 1005 阅读 · 2 评论 -
python - seaborn sns
Q: 这个怎么搞用sns?可以用huesns.scatterplot(x, y, data=df, hue='smoker')plt.show()原创 2020-10-26 20:35:24 · 5580 阅读 · 0 评论 -
python - matplotlib.pyplot plt
import matplotlib.pyplot as pltQ: 图中的点点怎么搞?ax = plt.subplots()ax.plot(x, y, marker='v', linestype='--', color='r')ax.set_xlabel('Time (months)')plt.show()具体的marker都有啥子:官方说明time-seriesQ: 读csv时候,如何把data转化成datetime格式?import pandas as pddf = pd.原创 2020-10-24 21:12:12 · 208 阅读 · 0 评论 -
pandas Q&A
Q: 如何把DataFrame datetime转化成datetime格式,然后在把year,month,day提取出来?df['date'] = pd.to_datetime(df['date'], utc=True)df['year'] = df['date'].dt.yearQ: 找出倒数10个数据df.tail(10)Q: 如何查找是否又重复数据?然后去掉重复的数据?查找:df['location'].duplicated() # 返回的是bool,所以可以靠这个索引set原创 2020-10-23 13:49:18 · 83 阅读 · 0 评论 -
2020-10-21 pandas - tables关系
PandasQ: inner join用什么?# df1, df2df1.merge(df2, on='xxx', suffixes=('_aaa', '_bbb'))Q: 多个tables拼接如何?# df1, df2, df3df1.merge(df2, on=['xxx', 'yyy']) /.merge(df3, on='zzz', suffixes=(...))原创 2020-10-22 22:23:02 · 388 阅读 · 0 评论 -
学习笔记-Numpy-常用
Q: 来一个从0到100,间隔是5.3的数组:np.arange(0., 100., 5.3)#array([ 0. , 5.3, 10.6, 15.9, 21.2, 26.5, 31.8, 37.1, 42.4, 47.7, 53. ,58.3, 63.6, 68.9, 74.2, 79.5, 84.8, 90.1, 95.4])Q: 来5个全部都是1的数组:np.full(5, 1.0)#array([1., 1., 1., 1., 1.])Q: 来5个全部都是0的数组:np.ze原创 2020-10-21 13:33:57 · 242 阅读 · 0 评论 -
TASK4_Python基础入门:Pokemon数据分析--阿里云天池
开始上手数据分析对于数据分析,我整体下来发现自己的基础还是不是很牢固,主要还是熟练的工作,要灵活运用一些python package,了解数据格式,知道怎么批量更改数据把一些错误的值改成统一的,这样处理下来才不会出错。希望自己以后可以坚持下来,慢慢把这个骨头啃下来,也欢迎可以和小伙伴们一块学习,共同进步!import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv("./pokemo原创 2020-09-10 20:22:11 · 265 阅读 · 0 评论