自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 解决NLTK语料库下载出错及nltk_data路径等问题

一、解决NLTK语料库下载问题NLTK有许多可供使用的语料库,但直接通过官网下载会出现某些问题下载语料库代码import nltknltk.download("all")代码中添加的参数可参考官方链接问题一:下载速度过慢,考验你的耐心问题二:下载速度过慢导致下载中止,再次运行命令会导致下图情况解决方案:通过百度资源下载nltk_data链接:nltk_data提取码:u...

2020-01-31 15:02:03 8331 9

原创 常见地图投影分类

在学习《地图制图基础》一书时,地图投影的种类很多并且里面的公式也比较复杂,阅读起来很抽象。所以将书中的常见的地图投影制作成表格,方便浏览与阅读。如果图片不清晰可以下载PDF格式文件以及原EXCEL文件,下为🔗下载链接:百度网盘链接链接:https://pan.baidu.com/s/1FUUVGZJa1SeHP8PIeBwQew?pwd=6666提取码:6666参考:高俊,地图制图基础[M].武汉:武汉大学出版社,2014....

2022-04-21 17:34:22 493

原创 【数据分析/挖掘】如何处理类别型特征?常用编码方式?Python实现?

1、如何处理类别型特征类别特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。类别型特征的原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型才能正确工作。在处理类别型特征,可以通过各种方式的编码来处理。比如序号编码、 独热编码、二进制编码等2、常用编码方法...

2021-01-04 14:37:30 1741

原创 【数据挖掘学习笔记】数据挖掘中主要问题有哪些?

数据挖掘是一个动态、强势快速扩展的领域。数据挖掘研究的主要问题,可划分为五组:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。一、挖掘方法目前大牛们已经开发了一些数据挖掘方法,涉及到新的知识类型的研究、多维空间挖掘、集成其他领域的方法以及数据对象之间语义捆绑考虑。此外,数据挖掘应该考虑诸如数据的不确定性、噪声和不完全性等问题。有些数据挖掘方法探索如何使用用户指定的度量评估所发现的模式的兴趣度,同时直到挖掘过程。挖掘各种新的新的知识类型: 数据挖掘广泛涵盖数据分析和知识发现的.

2020-12-29 20:44:24 3638

原创 【IMRaD】如何“科学地”写一篇科学研究论文

零、先感慨一下时间如瀑布不到一周就要返校了,到校注册后便是一名大四少年,时间过得真快,迷迷糊糊地便成为了大四学生。听说写毕业论文的过程是相当艰苦的,所以现在提前做好准备,瞅瞅如何写一篇科学研究型论文。一、常规研究论文的9个部分Title、Abstract、Introduction、Methods、Results、Discussion、Conclusion、Acknowledgements、References一、IMRaD架构“IMRaD”格式是指论文由四个主要部分构成:引言、方法、结果和讨论。这

2020-08-24 13:05:27 3952

原创 【WIN10】浏览器突然无法使用,但可以登录上QQ及微信,其问题原因以及解决方法

一、问题出现2020年8月12日晚九点左右,当我打开常伴我左右的电脑,打算通过浏览器查询资料时,喔喉,打不开网页。那时的状况是这样的:微信、QQ都可以登录,就是打开不了网页,显示的是DSN错误或者防火墙错误。对于我而言,计算机方面的专业术语太“复杂”,只能寻求“度娘”和专业人士的帮助了!!!!二、出现此情况的原因(仅针对本人)本人经常使用Google,有上油管看看喜欢的cp,以及强迫自己看英文原声视频(还是得有字幕的,毕竟我看国内的剧都需要看字幕——听力不太好)和查看学术方面的论文的需求,需要翻

2020-08-13 07:00:07 5888 1

原创 Seaborn调色板中所有颜色组合(表格整理版)

import seaborn as snssns.palplot(sns.color_palette("XXXXXX"))颜色组合名称(首字母大写)调色显示1.Accent2.Accent_r3.Blues4.Blues_r5.BrBG6.BrBG_r相信聪明的你们发现了颜色名称的某个规律 XXX_r 与 XXX 大多只是颜色顺序相反,故以下只显示 XXX7.BuGn8.BuPu9.CMRmap1

2020-07-11 22:58:02 5079

原创 图像处理中常用数据集

近期在学习关于图像处理的相关知识,实践过程中需要关于图像数据集,所以整理了以下常用数据集作为学习分享。PASCAL VOC 2012 Segmentation CompetitionPascal VOC数据集:视觉识别类竞赛鼻祖,包含了物体分类、目标检测、图像分割等任务。后续的ImageNet竞赛的任务设置基本上沿用的它的设定。给定的自然图片,从中识别出特定物体。待识别的物体有20类:person (人) cat, bird, cow, dog, horse, sheep (动物) ae

2020-06-07 12:00:23 3042

原创 ERROR: Failed building wheel for pendulum Failed to build pendulum

解决方案:> pip3 install --no-build-isolation pendulum==2.1.0

2020-05-18 21:37:50 473

原创 HBase shell操作

进入HBase命令行HBase提供了一个shell的终端给用户进行交互,可以与MySQL关联学习#前提启动Hadoop与hbase服务#进入hbase命令行$ cd HBASE_HOME/bin/$ hbase shellHBase中基本操作名称命令表达式创建表create ‘table_name’,‘col_family1’,‘col_family2’,‘c...

2020-04-08 09:30:07 162

原创 特征工程——向量空间模型及文本相似度计算

文档的向量化表示:BOW假设和VSM模型文本向量化的目的:便于计算文档时间的相似度BOW(bag-of-words model):假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。VSM(Vector space model):即向量空间模型。其是指在BOW假设下,将每个文档表示成同一向量空间的向量。BOW-VSM栗子停用词(stop words)*...

2020-04-07 14:33:55 713

原创 HBase相关介绍

HBase介绍HBase - Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可以在廉价的PC SERVER上搭建大规模结构化数据存储的集群。HBase利用Hadoop HDFS 作为其文件存储系统, 利用Hadoop Mapreduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。可以单独运行,也可以与mapre...

2020-04-07 13:47:12 323

原创 基于curl访问 Text Processing API

Text Processing API : http://text-processing.com/支持的功能:Stemming & LemmatizationSentiment AnalysisTagging and Chunk ExtractionPhrase Extraction & Named Entity Recognition下载:curl下载链接c...

2020-04-06 11:25:14 231

原创 分布式日志框架Flume架构及配置文件编写

Flume的简单介绍、架构、OG、NG、核心组件官网 : http://flume.apache.org/为什么要使用Flume主要作用:海量日志采集、聚合和传输的系统支持在日志系统中制定各类数据发送方,用户收集数据;提供对数据进行简单处理,可写到各种数据接收方(文本、HDFS、HBase)Flume可靠性End-to-end:先写在磁盘上,当数据传送成功后,在删除;如果数据发送失败...

2020-04-05 14:26:22 157

原创 Linux基础命令学习——相关帮助命令

帮助命令 man(manual)man 命令#man - format and display the on-line manual pages#man [-acdfFhkKtwW] [--path] [-m system] [-p string] [-c config file] [-M pathlist] [-P pager] [-B bowser] [-H htmlpager] [-S...

2020-03-23 11:43:29 99

原创 Windows 10下进行MySQL数据文件的转移

在进行数据分析的过程中,“基石”便是数据,可在使用过程中,存储在某个盘中的数据会不断累积,特别是MySQL的默认安装路径为C盘(C:\Program Files\MySQL\MySQL Server 8.0),将会导致C盘内存越用越小。同时个人因为各种需求也需要进行数据文件的转移。转移文件** windows下数据文件为隐藏文件 基本都在 C:\ProgramData 该路径下 **St...

2020-03-19 11:16:27 675

原创 一步解决pip后下载太慢问题

直接使用清华镜像下载第三方包

2020-02-15 16:05:15 174

原创 [NLP]基于维基百科中文语料库的Word2Vec模型训练

说明:该博客代码参考于参考博客:使用中文维基百科语料库+opencc+jieba+gensim训练一个word2vec模型参考博客:使用中文维基百科训练word2vec模型零、 模型训练环境Windows10-X64 、 python2.7 、 python3.6pip install jiebapip install gensim一、下载维基百科语料库数据下载地址该博客使...

2019-12-05 11:05:12 1171 1

原创 Matplotlib-自定义虚线样式

可参考官方文档中关于自定义虚线内容import numpy as npimport matplotlib.pyplot as pltx = np.linspace(0, 10, 500)y = np.sin(x)fig, ax = plt.subplots()#方法一:先绘制,再设置set_dashes(横杠样式<列表形式>)line1, = ax.plot(x, y...

2019-11-28 09:47:04 5043

转载 web前端性能优化

https://blog.csdn.net/qq_34927733/article/details/103051612

2019-11-17 17:40:06 72

原创 Pyechart 所有主题样式

pyechart给使用用户提供了一套主体样式,使用户对其的使用更加方便。本篇将总结pyecharts.globals中ThemeType所有主题风格并进行详细的解释。主题代码实现import pyecharts.charts as pyecimport pyecharts.options as optsfrom pyecharts.globals import ThemeTypeimpo...

2019-11-07 14:15:52 12125 1

转载 什么是特征工程

[点击进入](https://blog.csdn.net/v_JULY_v/article/details/81319999)

2019-10-20 16:03:09 168

原创 python Scrapy的安装

Scapy是python爬虫框架,适用于做大型的爬虫项目,在项目执行过程中可以不用过多关注细节(例如报错信息),只要任务集中在“爬取”。由于Scrapy框架涉及太多的依赖库,我们可以为特定爬虫项目创建虚拟环境以避免与之前系统以安装的包存在冲突,在进行pip安装。具体虚拟环境的创建可以参考官方手册:点击进入直接pip安装pip install scrapyps:尽可能开个VPN或者采用...

2019-10-15 10:33:09 180

原创 python numpy.sum()中axis该参数的理解

numpy作为主攻数据分析的包,肯定存在对多维数据进行求和等操作

2019-10-13 10:57:10 377

原创 python爬虫 请求网站时报错:http.client.RemoteDisconnected

请求网站时报错:http.client.RemoteDisconnected: Remote end closed connection without response原因:服务器限制了部分User-Agent的访问解决方案: 添加User-Agent原代码:data = urllib.request.urlopen(url).read().decode("utf-8", "ignore...

2019-10-11 12:09:02 2708 1

原创 Seaborn调色板中所有颜色组合

Seaborn调色板中所有颜色组合Seaborn让你更容易选择和使用那些适合你数据和视觉的颜色。color_palette()允许任意的seaborn调色板或matplotlib的颜色映射(除了jet,你应该完全不使用它),共有171种(编号从0开始)import matplotlib.pyplot as pltimport seaborn as sns#seaborn内置color的...

2019-10-10 14:15:09 3271 1

转载 centos7安装出现license information(license not accepted)解决办法

若出现license information(license not accepted),即说明需要同意许可信息,输入1-回车-2-回车-c-回车-c回车,即可解决。

2019-10-08 10:23:43 299

原创 [自然语言处理]马尔可夫模型

在学习宗成庆的《统计自然语言处理》的时候认识到隐马尔可夫模型在NLP中的应用,不过在介绍隐马尔科夫模型之前我们先介绍马尔可夫模型。马尔可夫 安德雷·安德耶维齐·马尔可夫АндрейАндреевичМарков(1856年6月14日-1922年7月20日),俄国数学家。出生于梁赞州,他的父亲是一位中级官员,后来举家迁往圣彼得堡。1874年马尔可夫入圣彼得堡大学,师从切比雪夫,毕业后留校...

2019-10-08 08:55:13 824

原创 [数据可视化]Matplotlib-简单示例

代码在jupyter notebook中运行,如果IDE是其他需在代码最后添加plt.show()import numpy as npimport matplotlib.pyplot as plt%matplotlib inline#中文乱码问题解决plt.rcParams['font.sans-serif'] = ['Simhei']plt.rcParams['axes.unico...

2019-09-27 11:05:44 245

原创 CSS标准颜色参考表

以色系排列红色系颜色名称代码颜色显示maroon#800000 darkred#8B0000 brown#A52A2A firebrick#B22222 crimson#DC143C red#FF0000 桃红~粉红颜色名称代码颜色显示mediumvioletred#C71585 palevioletred#D87093 deeppink#FF1493 fuchs...

2019-09-27 10:49:18 1646

原创 [推荐系统]推荐系统冷启动问题(理论知识)

个人博客链接什么是冷启动问题冷启动问题:如何在没有大量用户数据的情况下设计个性化推荐系统,并且让用户对推荐的结果满意从而愿意使用推荐系统。冷启动问题类型1.用户冷启动2.物品冷启动3.系统冷启动一、用户冷启动主要解决如何给新用户做个性化推荐的问题。因为我们没有新用户的行为数据,所以无法对其偏好进行预测。二、物品冷启动主要是选择合适的物品来启动用户的兴趣,给新用户提供一些物品,让用户...

2019-09-23 11:24:26 552

原创 [python]python第三方包安装

可转见个人博客:Python本身被设计为可扩展的。并非所有的特性和功能都集成到语言核心。Python提供了丰富的API和工具,以便程序员能够轻松地使用C、C++、Cython来编写扩展模块。Python编译器本身也可以被集成到其它需要脚本语言的程序内。因此,有很多人把Python作为一种“胶水语言”使用,且有效合理的运用python第三方包可大大提高开发效率。自带包管理器(pip/easy_...

2019-09-22 15:46:24 217

原创 [数据可视化]Matplotlib_2-画布和坐标轴设置及条形图、饼图绘制

import numpy as npimport matplotlib.pyplot as plt%matplotlib inline#中文乱码问题解决plt.rcParams['font.sans-serif'] = ['Simhei']plt.rcParams['axes.unicode_minus'] = False#画布的设置plt.figure('emmmm',fig...

2019-09-19 14:51:22 735

原创 [数据可视化]python-matplotlib(1)

转见个人博客网址

2019-09-13 14:35:55 107

原创 NLP学习笔记(一)

可浏览个人Bloghttps://tingshushaw.github.io/2019/09/06/NLP%E5%AD%A6%E4%B9%A0/NLP%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0(%E4%B8%80)/#moreNLP相关介绍自然语言处理(NLP)的定义从研究现状来看,自然语言理解和处理的理论体系尚未真正建立,技术方法仍然十分初步,所以对于什么是...

2019-09-08 14:01:35 232

原创 数据挖掘学习笔记(0)

该笔记参考《数据挖掘导论(完整版)》什么是数据挖掘数据挖掘是在大型数据库存储库中,自动的发现有用信息的过程。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的算法相结合。数据挖掘与知识发现数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不缺少的部分。数据预处理的目的是将未加工的输入数据转换成适合分析的形式。数据预处理一...

2019-05-16 19:24:19 302

原创 Python 决策树以及混淆矩阵的实现

from sklearn import datasetsfrom sklearn import treeiris = datasets.load_iris()clf = tree.DecisionTreeClassifier()clf = clf.fit(iris.data, iris.target)with open('iris.dot','w') as f: f = tre...

2019-05-08 21:49:25 4820

原创 python-DataFrame数据选择方法

DataFrame数据选择方法将数据框看成字典1. 把dataframe当作由若干个series对象构成的字典import numpy as npimport pandas as pdarea = pd.Series({'California': 423967,'Texas': 695662, 'Nwe York':141297,'Florida':...

2019-04-17 14:37:09 2973

原创 python字符串方法详情

可参考个人博客https://tingshushaw.github.io/2019/03/21/myblog/python字符串方法详解/#morePython字符串方法有哪些(不包括魔法方法)>>>dir(str)'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs...

2019-04-03 19:20:27 234

原创 python深浅copy详细代码解释

可见个人博客https://tingshushaw.github.io/2019/04/02/myblog/copy_note/#more#date 2019/4/2"""浅拷贝---只拷贝最外层深拷贝:导入 内置copy包"""import copyl1 = [[1,2,3],[4,5,6]]l2 = copy.deepcopy(l1)print(l1)print(l2...

2019-04-03 19:18:53 365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除