自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 jupyter 导出 html 或者 pdf 如何隐藏/删除input行,只留下output

最近发现一个比较头疼的问题,jupyter导出的时候input有时候真的太长了,特别是用pandas和matplotlib处理表格和画图的代码其实放出来很多时候并没有什么意义。在网上找了半天的资料,试了一下要么不成,要么被自己的智商限制住????。突然想到其实导出的html可以去修改起源代码嘛,这样用javascript的DOM配合上函数不就能把input直接删掉么?特此尝试了一下,发现的确是ok的!可能不是最好的方法,但感觉基本满足我的需求了1. 首先导出HTML。2. 浏览器打开inspect

2021-12-12 10:22:38 863

原创 【Python-docx】隔行删除内容

记录一个使用python批量更改word内容方法:问题:最近想学英语,也关注了一个讲data science面试的youtuber,但总是看视频有点累,有时候希望可以直接看到重要的咨询,从Youtube上找到了字幕,但中间隔着时间比较影响阅读,但是用鼠标一行一行的删除好麻烦,怎么办?解决:from docx import DocumentfileName = 'xxx'document = Document(fileName + '.docx')for i in range(1, len(d

2021-03-16 08:25:22 575 2

原创 kaggle比赛学习总结-kaggle-2020-visualization-analysis

今天做kaggle一个比赛,学习到一些东西,特此记录。https://www.kaggle.com/subinium/kaggle-2020-visualization-analysis.unstack()当有一个一下数据会将Q2的内容展开,变成column,忽略sort_index(),这个只是来通过index排序,可以区分一下sort_values()。同理,如果从下面这个表用.stack(),就会变会上面那个表.sum(axis=1)当想对row求和的时候,或者其他运算的时候,不需

2021-01-20 22:11:24 249

原创 手把手教用爬虫爬sciencedirect学术研究

背景做过学术的小伙伴都很应该很清楚知网了,看英文文献的话更加会接触过Elsevier。每当老板说:知道别人都在做一些什么研究吗?别的组都在从事什么方向了解吗?相关文献要多读一下。。。开始踏入学术圈的嘎杂,犹如无头苍蝇,摸不清楚方向,就算打不死也要愁死了。最近它得知一传说,在网上有一神兽,可以有呼天唤地之力量,在互联网中穿梭自由,过及之处,可挥一挥衣袖,带走所有云彩,这就是—爬虫。小伙伴问:“不需要这么麻烦,我去买一个不就完事了,要学会运用资本的力量。“ 嘎杂想了一下,觉的非常有道理,于是乎去联系了一下

2020-12-29 21:09:49 6045 9

原创 阿里云天池-AI训练营机器学习TASK2 - 朴素贝叶斯(Naive Bayes)

朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率,我们从一个摸球的例子来理解。我们有两个桶:灰色桶和绿色桶,一共有7个小球,4个蓝色3个紫色,分布如下图:从这7个球中,随机选择1个球是紫色的概率p是多少?选择过程如下

2020-12-24 15:49:25 154

原创 map(mapping)技巧

先说数据集

2020-11-27 08:30:25 824

原创 柱状图叠加

2020-11-27 08:19:44 295

原创 dataframe中寻找一些字符串的方法

一般常用的有两个xxx.isin([‘a’, ‘b’])isin中的字符串要与columns里头的字符串完全匹配,才会返回True。不能只是一部分xxx…str.contains(’…’, na=False)contains只需要含有就可以,不需要完全一模一样,包含一部分就会返回True...

2020-11-26 08:17:31 2153

原创 阿里云天池-AI训练营机器学习TASK3 - KNN

KNN原理介绍k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题:k值的选择和距离的计算。kNN中的k是一个超参数,需要我们进行指定,一般情况下这个k和数据有很大关系,都是交叉验证进行选择,但是建议使用交叉验证的时候,k∈[2,20],使用交叉验证得到一个很好的k值。k值还可以表示我

2020-11-20 14:00:41 403

原创 机器学习 - 集成学习(超全面)

看到一篇介绍集成学习的好文,但里头代码有点乱,特意研读整理一下,感谢大神假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。例如,你可以训练一组决策树分类器,每一个都在一个随机的训练集上。为了去做预测,你必须得到所有单一树的预测值,然后通过

2020-11-18 21:04:16 790

原创 python - function list generator

*args传递多个变量进来**kwargs传递个字典过来def func(**kwargs): for key, value in kwargs.items(): print(key + ':' + value)lambdamap(func, seq) 会遍历所有items在seq中⚠️:要使用list(xxxxx)来读取数据filter(func, seq)表达的是一个判断,返回为True的原数值list(map(lambda x : x % 2, range(10)))#

2020-11-11 07:49:21 162

原创 阿里云天池-AI训练营机器学习TASK1 - logistic regression

AI训练营机器学习超详细的讲解!可怕!看完感觉自己是xx系列。如何画出logistic regression的图## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn.linear_model import LogisticRegression##Demo演示LogisticRegression分类## 构

2020-11-09 16:50:12 281

原创 【solved】遇到一个matplotlib画图的问题-关于barplot排序画图

先说数据集现在想plot id VS market_cap_percTOP_CAP_TITLE = 'Top 10 market capitalization'TOP_CAP_YLABEL = '% of total cap'ax = plt.subplot()ax.bar('id', 'market_cap_perc', data=cap10)ax.set_xticklabels(cap10['id'], rotation=90)ax.set_ylabel(TOP_CAP_YLABEL)

2020-11-03 08:57:09 1008 2

原创 python - seaborn sns

Q: 这个怎么搞用sns?可以用huesns.scatterplot(x, y, data=df, hue='smoker')plt.show()

2020-10-26 20:35:24 5606

原创 python - matplotlib.pyplot plt

import matplotlib.pyplot as pltQ: 图中的点点怎么搞?ax = plt.subplots()ax.plot(x, y, marker='v', linestype='--', color='r')ax.set_xlabel('Time (months)')plt.show()具体的marker都有啥子:官方说明time-seriesQ: 读csv时候,如何把data转化成datetime格式?import pandas as pddf = pd.

2020-10-24 21:12:12 209

原创 pandas Q&A

Q: 如何把DataFrame datetime转化成datetime格式,然后在把year,month,day提取出来?df['date'] = pd.to_datetime(df['date'], utc=True)df['year'] = df['date'].dt.yearQ: 找出倒数10个数据df.tail(10)Q: 如何查找是否又重复数据?然后去掉重复的数据?查找:df['location'].duplicated() # 返回的是bool,所以可以靠这个索引set

2020-10-23 13:49:18 83

原创 2020-10-21 pandas - tables关系

PandasQ: inner join用什么?# df1, df2df1.merge(df2, on='xxx', suffixes=('_aaa', '_bbb'))Q: 多个tables拼接如何?# df1, df2, df3df1.merge(df2, on=['xxx', 'yyy']) /.merge(df3, on='zzz', suffixes=(...))

2020-10-22 22:23:02 392

原创 学习笔记-Numpy-常用

Q: 来一个从0到100,间隔是5.3的数组:np.arange(0., 100., 5.3)#array([ 0. , 5.3, 10.6, 15.9, 21.2, 26.5, 31.8, 37.1, 42.4, 47.7, 53. ,58.3, 63.6, 68.9, 74.2, 79.5, 84.8, 90.1, 95.4])Q: 来5个全部都是1的数组:np.full(5, 1.0)#array([1., 1., 1., 1., 1.])Q: 来5个全部都是0的数组:np.ze

2020-10-21 13:33:57 253

原创 TASK4_Python基础入门:Pokemon数据分析--阿里云天池

开始上手数据分析对于数据分析,我整体下来发现自己的基础还是不是很牢固,主要还是熟练的工作,要灵活运用一些python package,了解数据格式,知道怎么批量更改数据把一些错误的值改成统一的,这样处理下来才不会出错。希望自己以后可以坚持下来,慢慢把这个骨头啃下来,也欢迎可以和小伙伴们一块学习,共同进步!import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv("./pokemo

2020-09-10 20:22:11 273

原创 TASK3_Python基础入门:从函数到高级魔法方法--阿里云天池

函数函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname (parameters):       “函数_文档字符串”        function_suite        return [exp

2020-09-09 13:55:24 178

原创 TASK2_Python基础入门:数据结构大汇总--阿里云天池

列表List多种方式创建列表#1x = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday']x = list(range(10, 1, -2))print(x, type(x))# [10, 8, 6, 4, 2] <class 'list'>x = [i for i in range(100) if (i % 2) != 0 and (i % 3) == 0]print(x, type(x))# [3, 9,

2020-09-08 16:58:00 184

转载 Python基础入门:从变量到异常处理--阿里云天池

最近报名参加了阿里云天池的python学习,希望在这里记录下自己的学习需要强化记忆的地方,方便以后可以随时复习,增强巩固自己的python技能。

2020-09-07 19:54:43 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除