Panpan Wei
码龄4年
  • 539,912
    被访问
  • 91
    原创
  • 932,304
    排名
  • 141
    粉丝
关注
提问 私信

个人简介:机器学习,数据挖掘,自然语言处理,深度学习

  • 加入CSDN时间: 2018-04-09
博客简介:

Panpan Wei的博客

查看详细资料
个人成就
  • 获得339次点赞
  • 内容获得60次评论
  • 获得1,256次收藏
创作历程
  • 11篇
    2020年
  • 88篇
    2019年
成就勋章
TA的专栏
  • Markdown
    1篇
  • 数据挖掘
    3篇
  • 软件测试
    2篇
  • 深度学习
    3篇
  • 数据库
    2篇
  • 博弈论面试题
    1篇
  • LeetCode
    1篇
  • 机器学习
    51篇
  • matlab
    7篇
  • python
    18篇
  • 随笔
  • 数据结构与算法
    11篇
  • 集成学习
    11篇
  • UCI数据集
    1篇
  • 欧式距离
    1篇
  • 进化计算
    2篇
  • 多目标优化
    3篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据操作之-dataframe常见操作:取行、列、切片、统计特征值

import numpy as npimport pandas as pdfrom pandas import *from numpy import *data = DataFrame(np.arange(16).reshape(4,4),index = list("ABCD"),columns=list('wxyz'))print dataprint data[0:2] #取前两行数据print len(data ) #求出一共多少行pri.
原创
发布博客 2020.08.17 ·
1222 阅读 ·
0 点赞 ·
0 评论

运行python文件报(unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncated \UXXX

在我写的python读取文件的代码是这样的:with open('C:\Users\Administrator\Desktop\cat.jpg','wb') as f: f.write(resp.content) 执行的时候会报这样的错误原因分析:在windows系统当中读取文件路径可以使用\,但是在python字符串中\有转义的含义,如\t可代表TAB,
代表换行,所以我们需要采取一些方式使得\不被解读为转义字符。对于此问题,目前有是那种解决的办法:1、在路径前面.
原创
发布博客 2020.08.13 ·
200 阅读 ·
0 点赞 ·
0 评论

Python-解决使用 plt.savefig 保存图片时一片空白

当使用如下代码保存使用plt.savefig保存生成的图片时,结果打开生成的图片却是一片空白。例如:# 导入可视化工具包import matplotlib.pyplot as plt%matplotlib inline# 颜色和标签列表colors_list = ['red', 'blue', 'green']labels_list = ['setosa', 'versicolor', 'virginica']# 需要将DataFrame转成ndarray,才能进行 df[pr..
原创
发布博客 2020.08.11 ·
1622 阅读 ·
6 点赞 ·
1 评论

Markdown基本语法总结

简介:Markdown 是一种轻量级标记语言,它用简洁的语法代替排版,使我们专心于码字。它的目标是实现易读易写,成为一种适用于网络的书写语言。同时,Markdown支持嵌入html标签。<u>注意:Markdown使用#、+、*等符号来标记, 符号后面必须跟上至少1个空格才有效!</u>Markdown的常用语法1、用#标记在标题开头加上1~6个#,依次代表一级标题、二级标题....六级标题例如:# 一级标题## 二级标题### 三级标...
原创
发布博客 2020.08.11 ·
151 阅读 ·
0 点赞 ·
0 评论

python学习之——更改Anaconda的默认打开的浏览器

1.首先打开你要设置打开的浏览器。例如谷歌浏览器找到浏览器所在的地址2.在电脑中搜索找到jupyter_notebook_config.py文件。在这里打开此文件可以使用notepad++打开,notepad++安装教程详情见:https://blog.csdn.net/jodie123456/article/details/88567300#comments_129181303.在此文件中找到 c.NotebookApp.browser = ''在下方加上以下语..
原创
发布博客 2020.08.07 ·
1212 阅读 ·
0 点赞 ·
0 评论

关联规则挖掘算法-FP-tree算法

FP-tree两个主要步骤:1. 利用事务数据库中的数据构造FP-tree;2. 从FP-tree中挖掘频繁模式。具体过程:1.扫描数据库一次,得到频繁1-项集。2.把项按支持度递减排序。3.再一次扫描数据库,建立FP-tree。为了方便大家理解,下面附上一个简单的例子。给出一个具体的事务数据库:利用出现的次数计算频繁1-项目集。重新调整事务数据库:(在这里是对于每一个Items进行调整,把支持度高的放在前面)创建根结点和频繁项目表:加入第一个事务(I2
原创
发布博客 2020.05.22 ·
1241 阅读 ·
1 点赞 ·
0 评论

关联规则挖掘算法-Apriori算法

Apriori算法:Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。Apriori的性质:性质1:频繁项集的所有非空子集必为频繁项集。性质2:非频繁项集的超集一定是非频繁的。算法流程:下面介绍一下此算法具体实例:在
原创
发布博客 2020.05.22 ·
444 阅读 ·
0 点赞 ·
0 评论

自组织特征映射神经网络(SOM)程序

发布资源 2020.04.01 ·
zip

自组织特征映射神经网络(SOM)

自组织特征映射神经网络简介: 自组织特征映射神经网络(SOM)也是无教师学习网络,主要用于对输入向量进行区域分类。其结构与基本竞争型神经网络很相似。与自组织竞争网络的不同之处:SOM网络不但识别属于区域邻近的区域,还研究输入向量的分布特性和拓扑结构。自组织特征映射神经网络结构 1981年,科霍恩(Kohonen)教授提出一种自组织特征映射网(Self-Organi...
原创
发布博客 2020.04.01 ·
2202 阅读 ·
0 点赞 ·
0 评论

集成学习-Adaboost

Adaboost是集成学习中经典的算法之一。Adaboost算法,英文全称为:Adaptive Boosting,即自适应增强,是一种典型的Boosting算法。对于集成学习,对于给定的数据集,学习到一个较弱的分类器比学习到一个强分类器容易的多,boosting就是从弱学习器出发,反复学习,得到多个弱分类器,最后将这些弱分类器组合成强分类器。Adaboost算法主要的工作是以下两点。1...
原创
发布博客 2020.01.26 ·
209 阅读 ·
0 点赞 ·
0 评论

集成学习-bagging

bagging集成学习中最为经典的算法之一。Bagging算法的基本思想是:自助采样和投票表决Bagging就是,有放回采样m个样本,这件事进行T(T一般是奇数)次,这样就得到了T个不相同的训练集,分别用于取训练一个基学习器。因为样本集的构成不同,这T个基学习器就是不同的。而测试集则用这T次自助采样都没有采到过的那部分样本构成。投票表决:训练出的T个基学习器用于样本预测时,按少数服从多...
原创
发布博客 2020.01.26 ·
1459 阅读 ·
1 点赞 ·
0 评论

集成学习-Stacking

在集成学习中,结合策略也是影响集成模型性能的重要因素之一。传统的结合策略有多数投票、加权平均等。Stacking的本质是设计合适的结合策略,达到比传统结合策略更优的集成效果。首先,Stacking训练一组基学习器,用以参与后续的集成构建。其次,算法将这些学习器的输出和期望的样本标签视为新的学习任务,通过机器学习或其他策略得到一个新的模型,其中模型的输入为基学习器的输出,目的是通过构建...
原创
发布博客 2020.01.14 ·
403 阅读 ·
1 点赞 ·
0 评论

数据上的关联规则

关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系,是数据挖掘中的一个重要的课题。先简单介绍一下关联规则挖掘中涉及的几个基本概念:定义1:项与项集数据库中不可分割的最小单位信息,称为项目,用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集,I中项目的个数为k,则集合I称为k项集。定义2:事务设I={i1, i2, ..., ik}是由数据库...
原创
发布博客 2019.12.23 ·
1497 阅读 ·
0 点赞 ·
0 评论

在集成学习中能否将随机森林中的基分类器(决策树)替换为线性分类器或K-近邻。

随机森林是属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差,比基分类器的方差小。Bagging所采用的基分类器,最好是本身对样本分布较为敏感的(不稳定的分类器),这样的话Bagging才能发挥本身的性能。对于线性分类器或者K近邻都是较为稳定的分类器,对于这样的分类器本身的方差就比较大,所以他们作为基分类器使用Bagging并不能原有基分类器的基础上获得更好的表现,甚至...
原创
发布博客 2019.12.18 ·
1338 阅读 ·
1 点赞 ·
0 评论

处理不平衡数据的方法

最近在编程序的时候碰到了不平衡的数据,在处理这类数据的时候可以有以下三种方法:第一种:上采样是指把小众类的样本复制多份。第二种:下采样是从多数类样本剔除掉一部分或将大多数的样本选取部分样本第三种:SMOTE方法其中smote方法是上采样中最常用到的方法。他的思想是合成新的少数类的样本,合成的策略是对每一个少数类样本a,从他的最近领域中随机选择一个样本b(这个样本还是少类样本...
原创
发布博客 2019.12.18 ·
418 阅读 ·
1 点赞 ·
0 评论

解决Matlab中不关联的.m文件

第一步:首先下载这个文件链接:https://pan.baidu.com/s/1yy37wJjQlnn-_DKCXp4v6A ,提取码:84bn第二步:启动安装的matlab文件第三步:将下载好的软件进行解压,将解压好的associateFiles.m文件直接拖到matlab的命令行中,然后matlab会出现run()的代码,回车运行这个代码,这时候在当前文件夹下会出现一个后缀为.reg...
原创
发布博客 2019.12.16 ·
554 阅读 ·
4 点赞 ·
0 评论

python中迭代器和生成器

1、迭代器(iterator)是一个实现了迭代器协议的对象,python的一些内置数据类型(列表,数组,字符串,字典等)都可以通过for语句进行迭代,我们也可以自己创建一个容器,实现了迭代器协议,可以通过for,next方法进行迭代,在迭代的末尾,会引发stopIteration异常。迭代器有两个基本的方法:iter() 和 next()。2、生成器(generator)是通过yield语句快速生...
原创
发布博客 2019.11.29 ·
213 阅读 ·
0 点赞 ·
0 评论

软件测试的目的

1 以最少的人力、物力、时间找出软件中潜在的各种错误和缺陷,通过修正错误和缺陷提高软件质量,回避潜在的软件错误和缺陷给软件造成的商业风险。2 通过分析测试过程中发现的问题可以帮助发现当前开发工作所采用的软件过程的缺陷,以便进行软件过程改进;同时通过对测试结果的分析整理,可修正软件开发规则,并为软件可靠性分析提供相关的依据。3 评价程序或系统的属性,对软件质量进行度量和评估,以验证软件的质量...
原创
发布博客 2019.11.29 ·
357 阅读 ·
0 点赞 ·
0 评论

数据不足时的处理方法

在机器学习中,绝大部分模型都需要大量的数据进行训练和学习,然而在实际应用中经常会遇到训练不足的问题,比如图像分类,作为计算机视觉最基本的任务之一,其目标是将每一副图像划分到制定类别集合中的一个或者多个类别中,当训练一个图像分类模型时,如果训练样本比较少,该如何处理。一个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是模型形成过程中(包括构造学习和推理等),人们提供的先验信息...
原创
发布博客 2019.11.11 ·
2744 阅读 ·
0 点赞 ·
0 评论

软件测试题目

单项选择题:共20小题,每小题1 分,满分20分;请将答案填入题后括号中。1.在软件生命周期的哪一个阶段,软件缺陷修复费用最低 ( A )(A)需求分析(编制产品说明书) (B)设计(C) 编码(D)产品发布2....
原创
发布博客 2019.10.30 ·
5563 阅读 ·
4 点赞 ·
0 评论
加载更多