2021年03月_呆萌的代Ma

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Python取整（四舍五入、向上取整、向下取整）

文章目录四舍五入向上取整向下取整四舍五入a = 3.5print(round(a))向上取整import matha = 3.1print(math.ceil(a))向下取整a = 3.4print(int(a))

2021-03-30 16:25:23 575

原创 Python scipy拟合分布

代码：import numpy as npfrom scipy import statsnumber = np.random.normal(10, 5, 4000) # 生成均值为10，方差为5的dist = getattr(stats, 'norm')parameters = dist.fit(number)print(parameters)

2021-03-29 14:52:33 2526

安装方法：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ python-LevenshteinGithub地址：https://github.com/ztane/python-LevenshteinDOC地址：https://rawgit.com/ztane/python-Levenshtein/master/docs/Levenshtein.html安装了python-Levenshtein之后就可以使用了：使用方法import

2021-03-29 12:50:19 312

原创 python取两个列表的并集、交集、差集

# 并集def list_intersection(list1: list, list2: list) -> list: return list(set(list1).intersection(set(list2)))# 交集def list_union(list1: list, list2: list) -> list: return list(set(list1).union(set(list2)))# 差集(在in_list中，但是不在not_in_list

2021-03-26 10:27:00 1964

原创 python使用zip迭代列表

给定一堆list，返回所有列表在对应位置的值，构成的tuple，并且支持并行计算，是一个很有用的函数详情可以参考：https://realpython.com/python-zip-function/案例l1 = [1, 2, 3, 4, 5]l2 = [10, 11, 12, 13, 14]for i in zip(l1, l2): print("i: ", i)for x, y in zip(l1, l2): print("x: ", x, " y: ", y)打印的效

2021-03-26 09:47:27 117

原创 python使用停用词表过滤词

使用如下代码：import jiebadef get_stop_words(filepath) -> list: return open(filepath, 'r', encoding='utf-8').readlines()[0].split(',')# 对句子进行分词def seg_sentence(sentence, stop_words): sentence_seged = jieba.cut(sentence.strip()) stopwords =

2021-03-25 11:58:46 1702

原创使用jieba提取文本TF-IDF关键词

首先安装依赖：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ jieba然后使用如下代码：import jieba.analysedef tfidf_ana(content): content_s = "".join(content).strip() title_keys = jieba.analyse.extract_tags(content_s, topK=6, withWeight=False) # to

2021-03-24 21:05:58 298

原创 keras实例化model后，结果返回NoneType

解决办法卸载Keras后重新安装：pip uninstall keraspip install -i pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ keras报错原因解析出现这种问题的大概率是直接使用pycharm安装的keras吧~，pycharm这个keras的安装包有问题啊！...

2021-03-23 21:17:49 393

原创聚类方法学习（五）谱聚类算法Spectral Clustering与案例

谱聚类算法概述详情请参考：https://www.cnblogs.com/pinard/p/6221564.htmlSpectral Clustering算例from sklearn.cluster import spectral_clusteringimport numpy as npfrom sklearn import metricsfrom sklearn.preprocessing import StandardScalerX = np.random.random((1000,

2021-03-22 21:14:04 290

原创聚类方法学习（四）层次聚类算法Birch与案例

Birch 简介详情请参考：https://zhuanlan.zhihu.com/p/22458092Birch算例import numpy as npfrom sklearn.cluster import Birchfrom sklearn.preprocessing import StandardScalerX = np.random.random((1000, 4))X = StandardScaler().fit_transform(X)birch = Birch(n_clust

2021-03-22 21:07:23 946

原创聚类方法学习（三）亲和力传播算法AP

AP简介亲和力传播算法无需指定聚类的结果，使用的是AffinityPropagation，详情请参考：https://www.cnblogs.com/lc1217/p/6908031.html算法优缺点AP算法的优点：不需要制定最终聚类族的个数族中心点是已有的数据点，并不会额外出现新的数据点其结果的平方差误差较小。AP算法的不足：AP算法的时间复杂度较高，一次迭代大概O(N3)调参的结果（阻尼系数）对结果影响巨大AP算例from numpy import uniquefrom

2021-03-22 20:55:14 2877

原创 R语言快速学习第二部分（有其他语言基础）

文章目录空值NA 与缺失值NULL向量(vector)列表(list)矩阵(matrix)数组(array)因子(factor)数据框(data.frame)R语言数据对象包括以下几种：向量（vector），列表（list），矩阵（matrix），数组（array），因子（factor)，数据框（data.frame)其实R语言的向量、列表；矩阵、数组、数据库等看上去结构是一样的，但是背后代表着不同的运算逻辑与计算规则，因此需要时刻记得一个变量代表的是什么内容。空值NA 与缺失值NULLNA

2021-03-22 19:11:30 328

原创 dataframe 添加列表到一个单元格并解决报错ValueError: Must have equal len keys and value when setting with an...

报错解析import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randint(0,10,size=(5, 2)),columns=['test1','test2'])生成的dataframe格式是：直接使用：df.loc[0,'test_list'] = np.array([1,2,3])会报错：ValueError: Must have equal len keys and value when settin

2021-03-22 14:29:02 2061

原创聚类方法学习（二）KMeans算法与案例

kmeans简介kmeans直观感受就是自动画圈，通过画圈自动聚类算法优缺点优点：收敛速度快需要的参数少缺点：K值的选择较难初始点的随机种子对结果影响很大对异常值敏感可能只能得到局部的最优解，而无法得到全局的最优解kmeans算例import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.preprocessing import Stand

2021-03-22 12:35:10 478

原创聚类方法学习（一）DBSCAN算法与案例

DBSCAN简介DBSCAN可以克服Kmeans等算法聚出的类总是呈现椭圆形的问题，它的思路是：用一个点的邻域内的邻居点数衡量该点所在空间的密度，只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去，认为这些点属于一个类别。算法优缺点优点：不需要指定cluster的数目，形状任意对噪音不敏感聚类结果几乎不依赖于节点的遍历顺序缺点：DBSCAN算法的聚类效果依赖于距离公式的选取，面临维数灾难数据集维度相对分散（稀疏矩阵）的数据聚类效果并不好DBSCAN案例impor

2021-03-22 10:15:11 1391

原创 numpy生成服从特定分布（制定分布）的数据

使用numpy.random模块，文档地址：https://numpy.org/doc/1.16/reference/routines.random.html#distributions以幂律分布为例：import numpy as npnp.random.pareto(0.9, 2000)以正态分布为例：np.random.normal(10, 5, 400)

2021-03-20 15:56:15 1002

原创解决xgboost报错XGBoostError: XGBoost Library (libxgboost.dylib) could not be loaded

解决方法不要直接pip 安装xgboost，而是使用conda安装py-xgboostpip uninstall xgboostconda install py-xgboost

2021-03-19 17:19:40 1954 2

原创解决 jupyter-lab 安装插件后无法使用的问题（重新安装插件无法使用）

文章目录解决方法1. 检查插件状态2. 直接删除 build_config.json 文件3. 重启jupyter-lab解决方法1. 检查插件状态在jupyter的代码框中运行：!jupyter labextension list可以列出所有的插件，如：可以看到，jupyter-matplotlib既出现在上面，又出现在下面，这就是目前的一个bug，使用下面的方法就可以解决：2. 直接删除 build_config.json 文件在jupyter的代码编辑中输入代码：!jupyter

2021-03-19 12:47:52 5879

原创 pandas dataframe根据筛选结果修改值

例：这个是根据列1 == '旧值'这个条件，将列2指定为新的值df.loc[df[(df.列1 == '旧值')].index.tolist(),'列2'] = '新的值'

2021-03-19 11:02:11 3013

原创更新jupyter lab

使用jupyter --version可以查看jupyter的不同版本：jupyter core : 4.6.3jupyter-notebook : 6.0.3qtconsole : 4.7.5ipython : 7.16.1ipykernel : 5.3.2jupyter client : 6.1.6jupyter lab : 2.1.5nbconvert : 6.0.7ipywidgets :

2021-03-19 09:05:28 3952

原创 jupyter lab插件无法打开，且报错Error: 500 (Internal Server Error)

报错信息WARNINGError communicating with server extension. Consult the documentation for how to ensure that it is enabled.Reason given:Error: 500 (Internal Server Error)解决方法jupyter-lab 拓展程序是需要nodejs的，因此先安装nodejs在conda中安装：conda install nodejs更新一

2021-03-19 08:49:17 4666

原创 Mac 配置jupyter notebook 扩展 Nbextensions

配置方法进入jupyter notebook，新建一个python文件打开Python文件后，在输入框中输入：!pip install -i pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ jupyter_contrib_nbextensions!jupyter contrib nbextension install --user!pip install -i https://pypi.tuna.tsinghua.edu.cn/si

2021-03-19 08:23:52 1783 1

原创 pandas缺失值处理

删除所有缺失的行dataframe.dropna(inplace=True)删除指定列中有缺失值的那一行数据dataframe.dropna(axis=0, subset=["movie_type"], inplace=True)

2021-03-18 14:49:14 65

原创 pandas计算一个维度中的所有数值占总价值的占比

比如我有一份票房数据：类型票房剧情, 灾难2913118战争, 历史3094524剧情, 喜剧3099961剧情3176119根据已知的票房信息，我想知道不同类型的片子能抢占多少比例的总票房，效果如下：import pandas as pddef split_and_sum(dataframe: pd.DataFrame, column: str, sum_column: str): def get_all_type(type_se):

2021-03-18 14:17:02 2324

原创 Mac删除虚拟声卡

打开Mac的文件管理器，到目录：/Library/Audio/Plug-Ins/HAL/下直接删除想要的声卡文件夹即可，一般文件夹的结尾是.driver结尾的。重启系统

2021-03-16 09:22:52 4792

原创使用SO-PMI算法构建行业/专业情感词典

文章目录1. 情感词典内容2. 情感倾向点互信息算法（SO-PMI）算法点互信息算法 PMI情感倾向点互信息算法 SO-PMI3. 构建情感词典1. 导入项目2. 构建情感种子词3. 使用TF-IDF方便构建情感种子词4. 构建专业词典的效果与使用方法5. 其他说明1. 情感词典内容情感词典构建方法归为三类, 分别是: 词关系扩展法、迭代路径法和释义扩展法情感极性：正向、负向；表示正面情感(开心愉快)或负面情感(伤心愤怒)情感极值：情感倾向（微笑、开怀大笑、手舞足蹈虽然都可以表示开心，但有不一样的

2021-03-15 12:48:16 6699 26

原创呆萌的图模型学习——基本概念(一)

文章目录1. 图的基本概念2. 特殊结构的网络3. 衡量网络的一些指标4. 基于图结构的图表示学习deepwalknode2vecstruc2vecmetapath2vec5. 基于图特征的图表示学习GCNGNN参考资料1. 图的基本概念节点结点可以分为两类：隐含结点和观测结点。边可以分为有向边或无向边。从概率论的角度来看，概率图模型是一个概率分布，图中的结点对应于随机变量，边对应于随机变量的相关性关系。给定一个实际问题，我们通常会观测到一些数据，并且希望能够挖掘出隐含在数据中的知识。那么怎样才能

2021-03-15 10:41:37 356

原创 Python使用字典get()方法TypeError: get() takes no keyword arguments

解决方法dict的get("key", 0)方法不要添加default=，删除这个写法并不影响使用逻辑，但是加上会导致报错。d = { 'key': 2,}print(d.get("key", 0))问题解析如果使用下面的代码就会报错TypeError: get() takes no keyword argumentsd = { 'key': 2,}print(d.get("key", default=0))原因是因为Python底层由C来写，调用底层C语言在编译时无

2021-03-14 10:51:34 13220 1

原创 Docker下载与安装(win7，8，10，mac)

文章目录docker安装win10专业版/教育版win7，8，10家庭版启动dockerdocker配置参考网站docker安装win10专业版/教育版博主平常用windows主机开linux虚拟机，所以docker是安装在windows上的。进入官网：https://download.docker.com/win/stable/Docker%20Desktop%20Installer.exe，建议使用迅雷下载。win7，8，10家庭版1.win7，8，10家庭版需要安装的是docker tool

2021-03-14 09:51:06 1589

原创搜狗输入法自定义短语（克制名词解释、背诵类问题）

原理：使用搜狗输入法的“自定义短语”功能，该功能可以在你输入一个自定义的词(key)后，在输入框中出现你自定义的输出(value)操作：Windows打开设置 -> 高级 -> 自定义短语即可添加自定义短语Mac点击右上角的搜狗输入法，在菜单中选择Edit Text Substitutions，在打开的界面中...

2021-03-14 09:31:07 1069 3

原创离群点、异常点检测及Python实现（正态分布3∂，Z-score 异常值检测，基于MAD的Z-score 异常值检测，杠杆值点、DFFITS值、SR学生化残差、cook距离和covratio值）

有一些准则可以检测离群点，如：正态分布3∂，Z-score 异常值检测，基于MAD的Z-score 异常值检测以上部分详情与代码请参考：https://blog.csdn.net/weixin_35757704/article/details/89280715文章目录高杠杆值点DFFITS值SR学生化残差cook距离covratio值全部代码下面是其他的准则：高杠杆值点（帽子矩阵）、DFFITS值、SR学生化残差、cook距离和covratio值，先创建个例子：import numpy as np

2021-03-14 09:07:58 3875 1

原创 Patsy库查看使用公式语法建模后的输入特征X 与预测Y

使用公示语法生成的import numpy as npimport pandas as pddataframe = pd.DataFrame( np.random.randint(0, 100, size=(100, 4)), columns=['col1', 'col2', 'col3', 'prep'])# 使用Patsy公示语法后的 X 与 Y 可以通过这个看：from patsy import dmatricesy, X = dmatrices('prep ~ col1 +

2021-03-13 11:20:32 236

原创 Python 多重共线性检验

多重共线性概念共线性问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低，另外，过多无关的维度计算也很浪费时间。多重共线性产生原因样本量太少，导致部分数据以外的呈现线性关系由于某些原因，导致多个变量的变化趋势一致各变量之间存在线性关系，或关联性较强共线性检验1. 方差膨胀系数(variance inflation factor，VIF)VIF是容忍度的倒数，值越大则共线性问题越明显，通常以10作为判断边界。当VIF<10,不存

2021-03-13 10:30:15 13298 2

原创运筹作业题：一个正三角形平面，在三个角的部分减去一部分，然后沿着剪开部分折叠起来，使折叠后的三棱台体积最大

文章目录1. 题目2. Python求解3. 作业纸上的描述1. 题目一个正三角形平面，边长为1，在三个角的部分减去一个四边形，然后沿着剪开部分折叠起来，该怎么剪，才能使折叠后的三棱台体积最大。2. Python求解使用geatpy库求解：MyProblem2.py :# -*- coding: utf-8 -*-import numpy as npimport geatpy as eaclass MyProblem(ea.Problem): # 继承Problem父类 de

2021-03-11 10:57:01 178

原创提供小图标(Icon)的网站（不定时更新）

论文绘图经常用一些小图标，可以到下面的网站上查找：https://www.flaticon.com/https://icons8.com/

2021-03-11 08:43:15 1174

原创 pandas 修改数据类型（dtype/dtypes）

Pandas类型用法一：修改某一列的数据类型df: pd.DataFrame = pd.DataFrame([ ['a', '1', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']], columns=['one', 'two', 'three'])df['two'] = df['two'].astype('int64') # 修改'two'列为 int类型onetwothreea14.2b7

2021-03-09 09:18:03 15842 1

原创 pandas apply()函数传参，与解决TypeError: xxxx() takes 2 positional arguments but 3 were given报错

解决方法合理的做法如下：import pandas as pddef add_symbol(series: pd.Series, symbol): # symbol 为需要的参数 series['列名'] += symbol return serieslist_data = ['a', 'b', 'c', ]df = pd.DataFrame(data=list_data, columns=['列名'])df = df.apply(add_symbol, axis=1,

2021-03-08 17:02:04 2838

原创 snownlp文本分词、情感分析、文本相似度与摘要生成

使用的库是snownlp库

2021-03-08 16:15:13 894

原创 python调用腾讯自然语言处理api

腾讯产品首页：https://cloud.tencent.com/product开通服务进入网站：https://console.cloud.tencent.com/nlp，扫微信登录腾讯云，点击开通，即可开通腾讯NLP服务官方文档：https://cloud.tencent.com/document/api/271/35483配置SDK进入网站：https://console.cloud.tencent.com/cam/capi，点击新建秘钥生成一个新的秘钥，记住SecretId与SecretK

2021-03-08 15:33:36 487

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

使用pyLDAvis的实例结果，及d3.min.js，ldavis.v1.0.0.css，ldavis.v1.0.0.js

geth_tools.tar.gz

handless_firefox.tar

呆萌的停用词表.txt

主流售房网站爬虫

一键安装libpcap及其所有依赖文件的脚本

网页爬取爬虫

Linux离线中文命令手册

软件开发常用词汇

Git 64位 最新版 Git-2.13.1.2-64-bit

Python2.x链接Mysql的安装文件

Python3链接Mysql的64bit安装文件

W3Cschool参考手册资料

空空如也

Git 64位最新版 Git-2.13.1.2-64-bit