自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小十亘的博客

努力学习的it人

  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 linux下安装java

第一步 查看系统版本uname --m第二步 下载对应jdk版本我这里下载的是jdk11版本看清对应的版本!!!第三步 上传-解压在/usr/local/下新建一个目录,待会存放解压的文件mkdir /usr/local/java-install如果没有权限,前面加sudo将下载的jdk文件上传至任意一个临时文件夹,然后在其中进行解压mkdir /hhh/tmp_dir/cd /hhh/tmp_dir/tar -zvxf jdk-11.0.12_linux-x64_b

2021-07-24 11:19:16 189

原创 各种词向量的原理和详细代码实战(word2vec,fasttext,glove,elmo,gpt,bert)

从word2vec-->fasttext-->glove的原理及实战一、Word2Vec什么是Word2VecWord2vec比较one-hot优点Word2Vec的两种训练方式Word2Vec需要注意的几个关键点Word2Vec的实现方式Word2Vec的训练方式分别用tensorflow和gensim实现Word2Vec二、Fasttext是什么FasttextFasttext的优...

2020-05-14 10:35:40 2378 9

原创 解决pip下载速度慢,pip切换源下载的两种方法

pip,conda切换源安装,显著提升速度!!!第一种方法(针对pip)临时方法永久方法第二种方法(针对conda)第一种方法(针对pip)临时方法在利用pip install xxx 的时候,使用下面这条命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xxx其中,xxx是你要安装的包名。永久方法windows下...

2019-12-26 00:22:38 917

原创 核心期刊基本格式和内容要求文档

核心期刊的基本格式和内容要求文档,对于那些苦于没有csdn的积分,无法下载的人,这里给个链接下载。链接:核心期刊基本格式和内容要求文档下载提取码:z4fh如果失效了,可以提醒下我。...

2019-11-14 09:49:05 1458 1

原创 随机森林算法原理梳理

1.其他术语概念(前提)随机森林我们可以理解为多个决策树组成的模型,但是如何组合,组合的方式是什么,我们就得知道集成学习的思想,bootstraping,bagging的概念。集成学习思想: 集成学习主要的作用是为了解决单个模型在运行时固有的缺陷,从而将多个单个模型组合到一起,取长补短,共同发挥功效。简单的理解人多力量大。随机森林就是这个思想下的产物。这里借用另一个博主的一张图可以更好的理解这...

2019-07-19 10:05:16 3574

原创 回归大家庭和朴素贝叶斯总结归纳

一, 回归大家庭1. 线性回归1.1 线性回归的概念:线性回归就是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的方法,通俗的说就是通过大量样本的训练,通过有监督的学习找到一个X到Y的映射关系,利用该关系对未知数据进行预测,经常用于房价预测等方面,之所以把其分类到回归问题是因为我们所预测的Y值是连续值。1.2 线性回归的数学形式表达n 为 样本总数X 为 样...

2019-07-06 19:03:21 617 1

原创 机器学习概述及KNN归纳总结

一 1.机器学习概述1.1 时刻接触的机器学习谈起机器学习,就不得不说当下大火的人工智能领域,人工智能是什么?人工智能是类人思考、类人行为,理性的思考、理性的行动。人们一谈起人工智能,很多人就潜意识觉得人工智能是属于那些计算机专业,通讯专业等技术人才,才能时刻接触到的,其实人工智能离我们并不遥远,我们每个人时时刻刻都与人工智能密切接触,例如:我们的办公邮箱拦截的垃圾短信功能,美颜相机,淘宝上给...

2019-06-28 22:08:40 390 1

原创 文本相似度计算的简单实例超详细代码解释(附代码,文件)

任务目标本次实验是根据淘宝搜索的商品标题来寻找类似的商品标题:给定一个标题:Apple iPhone 8 (A1863) 64GB 深空灰色 移动联通电信4G手机找出与其类似的前十个标题:后面是相似度,越接近1越相似,相似度采用余弦相似性代码解释import jiebaimport pickleimport numpy as npimport pandas as pdfrom...

2019-06-26 17:49:17 7004 97

原创 逻辑回归梯度下降详细python代码实现

梯度下降法批量梯度下降法BGD随机梯度下降法SGD小批量梯度下降发MSGDBGD会获得全局最优解,缺点是在更新每个参数的时候需要遍历所有的数据,计算量会很大,并且会有很多的冗余计算,导致的结果是当数据量大的时候,每个参数的更新都会很慢。SGD以高方差频繁更新,优点是使得SGD会跳到新的和潜在更好的局部最优解,缺点是使得收敛到局部最优解的过程更加的复杂。MBGD降结...

2019-06-24 16:35:07 3148 1

原创 朴素贝叶斯不调包超详细python代码实现

朴素贝叶斯种类GaussianNB:高斯朴素贝叶斯就是先验为高斯分布(正态分布)的朴素贝叶斯。公式为:P(Xj=xj∣Y=Ck)=12πσk2exp⁡(−(xj−μk)22σk2)P\left(X_{j}=x_{j} | Y=C_{k}\right)=\frac{1}{\sqrt{2 \pi \sigma_{k}^{2}}} \exp \left(-\frac{\left(x_{j}-\m...

2019-06-24 13:53:28 1948

原创 决策树不调包超详细python代码实现及案例

一、概述决策树是一种有监督学习算法,是一种基本的分类与回归的方法,它主要分为两种:分类树和回归树。二、了解ID3,C4.5,CART衡量分裂点不存度的指标 ID3:使用信息增益进行特征选择 C4.5:信息增益率 CART:基尼系数 一个特征的信息增益(或信息增益率,或基尼系数)越大,表明特征对样本的熵的减少能力更强(越快到达叶子结点),这个特征使得数据由不确定性到确定性的能力越强。...

2019-06-14 23:20:25 2395

原创 k_近邻算法不调包超详细python实现加案例演示

一,K-近邻算法简单概述k-近邻算法(k-Nearest Neighbour algorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别。可以简单理解为:由那些离X最近的k个点来投票决定X归为哪一类。二...

2019-06-13 23:13:51 682

原创 基于jieba分词的TF-IDF提取关键词算法中,根据不同领域自定义所使用逆向文件频率(IDF)的文本语料库

2019-05-20 18:06:23 6526 6

原创 决策树算法梳理以及python实现

1.信息论基础1.1 熵熵:用通俗点的话来说就是一个衡量混乱程度的单位。例如一个杯子A里只倒了啤酒,而另一个杯子B里倒了啤酒,白酒, 红酒,那么我们说杯子A的熵值比杯子B的熵值小\专业解释:假设随机变量X的可能取值有x1,x2,...,xnx1​,x2​,...,xn​,对于每一个可能的取值xi​,其概率为P(X=xi)=pi,i=1,2...,n。随机变量的熵为底数选取不影响...

2019-05-18 16:25:54 509 2

原创 逻辑回归算法梳理

1、逻辑回归与线性回归的联系与区别线性回归: 线性回归是通过大量的样本训练,进行有监督的学习,学习X到Y的映射,利用该映射关系对未知数据进行评估预测。(例如:预测房价),由于Y是连续值,所以是回归问题。逻辑回归:逻辑回归同样是有监督学习,旨在解决二分类问题。在空间中找到一条决策边界,来讲两种类型的值分开。线性回归可以解决连续值的预测,但是不能解决分类问题,逻辑回归可以解决分类问题,所以逻辑回...

2019-05-14 20:48:18 222

原创 机器学习基础概念

机器学习基本概念(1)监督学习:根据训练样本(含有标签)进行训练得到一个最优的模型,包括线性回归、逻辑回归、svm、支持向量机等算法(2)无监督学习:训练样本并没有标签,训练之前也不清楚样本的类别,通过样本之间的特性进行自动分类,比如聚类算法如kmeans就是典型的无监督学习算法 。(3)泛化能力:是指训练得到的模型对测试样例的拟合程度。(4)过拟合:指模型对训练样本有很好的拟合能力,...

2019-05-12 22:27:00 554 2

原创 安装scrapy出现: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

安装Scrapy的时候出现的错误:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”解决办法,先去这个网址 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted, 下载对应的Twisted依赖库,放在一个目录下,...

2019-02-26 14:30:51 480

原创 tesseract的安装和使用

Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

2019-02-23 17:46:31 618

原创 爬虫代理池的维持更新和使用

爬虫代理池使用ProxyPool的下载测试代理池是否正常工作获取代理方法ProxyPool的下载网上有许多的免费代理,这里用GitHub里崔庆才老师提供的免费代理池ProxyPool下载地址进入该页面后,点击右上角下载下载完后,解压到目录下,用cmd命令进入该文件夹下,输入代码pip install -r requirements.txt等待加载完成,就安装好了。测试代理池是否正常工作...

2018-12-18 13:09:33 334

原创 爬虫初学者安装学习环境

(爬虫初学者安装学习环境)第一步:Anaconda首先进入anaconda的首页:anaconda的首页,点击右上角的download,下载与自己系统对应的程序,下载完后开始安装。第二步:pycharm专业版的安装首先进入pycharm官网下载页面:pycharm官方下载页面,下载左下与自己电脑系统相对应的专业版版本,下载完后安装,没有特别需求可以一直点下一步,下载完后不用打开,下载破解补...

2018-12-13 15:11:19 341

词向量数据及代码.zip

这篇文章内容的代码及数据集https://blog.csdn.net/laojie4124/article/details/102915141

2021-10-12

文本相似度简单案例.zip

该文件中包含代码中所使用的数据集,代码主要是nlp中文本相似度计算的简单案例,给定一个标题,寻找与其类似的前十标题,给刚接触文本相似度计算的童鞋一个快速入门的案例,简单易懂,代码解释超级详细,代码测试可运行,配合里面的详细介绍看效果最佳。

2019-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除