michael_wq-CSDN博客

原创 jupyter 导出 html 或者 pdf 如何隐藏/删除input行，只留下output

最近发现一个比较头疼的问题，jupyter导出的时候input有时候真的太长了，特别是用pandas和matplotlib处理表格和画图的代码其实放出来很多时候并没有什么意义。在网上找了半天的资料，试了一下要么不成，要么被自己的智商限制住????。突然想到其实导出的html可以去修改起源代码嘛，这样用javascript的DOM配合上函数不就能把input直接删掉么？特此尝试了一下，发现的确是ok的！可能不是最好的方法，但感觉基本满足我的需求了1. 首先导出HTML。2. 浏览器打开inspect

2021-12-12 10:22:38 975

原创【Python-docx】隔行删除内容

记录一个使用python批量更改word内容方法：问题：最近想学英语，也关注了一个讲data science面试的youtuber，但总是看视频有点累，有时候希望可以直接看到重要的咨询，从Youtube上找到了字幕，但中间隔着时间比较影响阅读，但是用鼠标一行一行的删除好麻烦，怎么办？解决：from docx import DocumentfileName = 'xxx'document = Document(fileName + '.docx')for i in range(1, len(d

2021-03-16 08:25:22 641 2

原创 kaggle比赛学习总结-kaggle-2020-visualization-analysis

今天做kaggle一个比赛，学习到一些东西，特此记录。https://www.kaggle.com/subinium/kaggle-2020-visualization-analysis.unstack()当有一个一下数据会将Q2的内容展开，变成column，忽略sort_index()，这个只是来通过index排序，可以区分一下sort_values()。同理，如果从下面这个表用.stack()，就会变会上面那个表.sum(axis=1)当想对row求和的时候，或者其他运算的时候，不需

2021-01-20 22:11:24 341

原创手把手教用爬虫爬sciencedirect学术研究

背景做过学术的小伙伴都很应该很清楚知网了，看英文文献的话更加会接触过Elsevier。每当老板说：知道别人都在做一些什么研究吗？别的组都在从事什么方向了解吗？相关文献要多读一下。。。开始踏入学术圈的嘎杂，犹如无头苍蝇，摸不清楚方向，就算打不死也要愁死了。最近它得知一传说，在网上有一神兽，可以有呼天唤地之力量，在互联网中穿梭自由，过及之处，可挥一挥衣袖，带走所有云彩，这就是—爬虫。小伙伴问：“不需要这么麻烦，我去买一个不就完事了，要学会运用资本的力量。“ 嘎杂想了一下，觉的非常有道理，于是乎去联系了一下

2020-12-29 21:09:49 7560 9

原创阿里云天池-AI训练营机器学习TASK2 - 朴素贝叶斯(Naive Bayes)

朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：从这7个球中，随机选择1个球是紫色的概率p是多少？选择过程如下

2020-12-24 15:49:25 222

原创 map(mapping)技巧

先说数据集

2020-11-27 08:30:25 882

原创柱状图叠加

2020-11-27 08:19:44 367

原创 dataframe中寻找一些字符串的方法

一般常用的有两个xxx.isin([‘a’, ‘b’])isin中的字符串要与columns里头的字符串完全匹配，才会返回True。不能只是一部分xxx…str.contains(’…’, na=False)contains只需要含有就可以，不需要完全一模一样，包含一部分就会返回True...

2020-11-26 08:17:31 2247

原创阿里云天池-AI训练营机器学习TASK3 - KNN

KNN原理介绍k近邻方法是一种惰性学习算法，可以用于回归和分类，它的主要思想是投票机制，对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据，用他们的label进行投票，分类问题则进行表决投票，回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题：k值的选择和距离的计算。kNN中的k是一个超参数，需要我们进行指定，一般情况下这个k和数据有很大关系，都是交叉验证进行选择，但是建议使用交叉验证的时候，k∈[2,20]，使用交叉验证得到一个很好的k值。k值还可以表示我

2020-11-20 14:00:41 496

原创机器学习 - 集成学习（超全面）

看到一篇介绍集成学习的好文，但里头代码有点乱，特意研读整理一下，感谢大神假设你去随机问很多人一个很复杂的问题，然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的，如果你合并了一组分类器的预测（像分类或者回归），你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成；因此，这个技术就叫做集成学习，一个集成学习算法就叫做集成方法。例如，你可以训练一组决策树分类器，每一个都在一个随机的训练集上。为了去做预测，你必须得到所有单一树的预测值，然后通过

2020-11-18 21:04:16 892

原创 python - function list generator

*args传递多个变量进来**kwargs传递个字典过来def func(**kwargs): for key, value in kwargs.items(): print(key + ':' + value)lambdamap(func, seq) 会遍历所有items在seq中⚠️：要使用list(xxxxx)来读取数据filter(func, seq)表达的是一个判断，返回为True的原数值list(map(lambda x : x % 2, range(10)))#

2020-11-11 07:49:21 218

原创阿里云天池-AI训练营机器学习TASK1 - logistic regression

AI训练营机器学习超详细的讲解！可怕！看完感觉自己是xx系列。如何画出logistic regression的图## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn.linear_model import LogisticRegression##Demo演示LogisticRegression分类## 构

2020-11-09 16:50:12 326

原创【solved】遇到一个matplotlib画图的问题-关于barplot排序画图

先说数据集现在想plot id VS market_cap_percTOP_CAP_TITLE = 'Top 10 market capitalization'TOP_CAP_YLABEL = '% of total cap'ax = plt.subplot()ax.bar('id', 'market_cap_perc', data=cap10)ax.set_xticklabels(cap10['id'], rotation=90)ax.set_ylabel(TOP_CAP_YLABEL)

2020-11-03 08:57:09 1097 2

原创 python - seaborn sns

Q: 这个怎么搞用sns？可以用huesns.scatterplot(x, y, data=df, hue='smoker')plt.show()

2020-10-26 20:35:24 5735

原创 python - matplotlib.pyplot plt

import matplotlib.pyplot as pltQ: 图中的点点怎么搞？ax = plt.subplots()ax.plot(x, y, marker='v'， linestype='--', color='r')ax.set_xlabel('Time (months)')plt.show()具体的marker都有啥子：官方说明time-seriesQ: 读csv时候，如何把data转化成datetime格式？import pandas as pddf = pd.

2020-10-24 21:12:12 247

原创 pandas Q&A

Q: 如何把DataFrame datetime转化成datetime格式，然后在把year，month，day提取出来？df['date'] = pd.to_datetime(df['date'], utc=True)df['year'] = df['date'].dt.yearQ: 找出倒数10个数据df.tail(10)Q: 如何查找是否又重复数据？然后去掉重复的数据？查找：df['location'].duplicated() # 返回的是bool，所以可以靠这个索引set

2020-10-23 13:49:18 122

原创 2020-10-21 pandas - tables关系

PandasQ: inner join用什么？# df1, df2df1.merge(df2, on='xxx', suffixes=('_aaa', '_bbb'))Q: 多个tables拼接如何？# df1, df2, df3df1.merge(df2, on=['xxx', 'yyy']) /.merge(df3, on='zzz', suffixes=(...))

2020-10-22 22:23:02 465

原创学习笔记-Numpy-常用

Q: 来一个从0到100，间隔是5.3的数组：np.arange(0., 100., 5.3)#array([ 0. , 5.3, 10.6, 15.9, 21.2, 26.5, 31.8, 37.1, 42.4, 47.7, 53. ,58.3, 63.6, 68.9, 74.2, 79.5, 84.8, 90.1, 95.4])Q: 来5个全部都是1的数组：np.full(5, 1.0)#array([1., 1., 1., 1., 1.])Q: 来5个全部都是0的数组：np.ze

2020-10-21 13:33:57 372

原创 TASK4_Python基础入门：Pokemon数据分析--阿里云天池

开始上手数据分析对于数据分析，我整体下来发现自己的基础还是不是很牢固，主要还是熟练的工作，要灵活运用一些python package，了解数据格式，知道怎么批量更改数据把一些错误的值改成统一的，这样处理下来才不会出错。希望自己以后可以坚持下来，慢慢把这个骨头啃下来，也欢迎可以和小伙伴们一块学习，共同进步！import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv("./pokemo

2020-09-10 20:22:11 329

原创 TASK3_Python基础入门：从函数到高级魔法方法--阿里云天池

函数函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname (parameters): “函数_文档字符串” function_suite return [exp

2020-09-09 13:55:24 244

原创 TASK2_Python基础入门：数据结构大汇总--阿里云天池

列表List多种方式创建列表#1x = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday']x = list(range(10, 1, -2))print(x, type(x))# [10, 8, 6, 4, 2] <class 'list'>x = [i for i in range(100) if (i % 2) != 0 and (i % 3) == 0]print(x, type(x))# [3, 9,

2020-09-08 16:58:00 283