- 博客(201)
- 资源 (15)
- 收藏
- 关注
原创 Hadoop集群搭建--虚拟机互相ping通
文章目录目标一、虚拟机的网络配置二、虚拟机机子ip配置1. 第一台hadoop0总结目标看到了很多文献及文档,但是都没有说清ip是用的哪个,最后结果是什么。经过了一些磕绊,总结了下虚拟机配置步骤,希望能给你带来帮助。目标:新建及克隆虚拟机,做到:1. 虚拟机之间互相能ping通;2. 虚拟机和主机能互相ping通;3. 虚拟机和网站能ping通;一、虚拟机的网络配置Edit-> Virtual Network EditorVirtual Network Editor有三个网络:桥连接
2020-11-17 00:38:41
2503
原创 pyltp 安装过程总结
在安装pyltp的过程中踩了不少坑,这里对坑过程进行总结下,避免大家踩坑:第一步 :安装pyltp这里看别的blog给了两个方法:一个是直接pip,另一个是通过git clone pyltp的github,再通过python setup,py install来进行安装。但是这两种方法统统会报错,故直接使用wheel来安装即可:pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-cp36m-win_amd64.whl下载好了后,进入whl下载好的
2020-06-15 21:35:25
2888
4
原创 NLP面试题目总结
数据结构与算法相关1. 快速排序算法请实现快速排序算法,自行设计测试用例来说明算法的准确性,算法的时间和空间复杂度是多少?最坏的时间复杂度是多少?2. 归并排序算法请实现归并排序,自行设计测试用例来说明算法的准确性,算法的时间和空间复杂度是多少?最坏的时间复杂度是多少?3. 面对一个具体的问题,倾向于使用归并还是快排,为什么?数学基础机器学习基础自然语言处理...
2020-03-02 22:37:28
2457
原创 探索循环神经网络在构建语言模型中的演化历程
任务说明用周杰伦的歌词数据构建字符级循环神经网络,并用其生成新的歌词。数据集数据集说明数据集中的训练集合采用的是周杰伦十张专辑中的歌词,用此来训练一个语言模型,并用其来生成新的歌词。数据集读取通过with open读取数据集,并将换行符替换成空格。去除换行符时,需要同时去除’\n’和’\r’:with open ('jaychou_lyrics.txt')as f: # 将文件读取...
2020-03-02 00:27:11
697
原创 NLP基础:枚举法和维特比搭建分词
一. 基于枚举方法搭建中文分词工具使用的数据:中文词库文件(当作词典来用);计算出部分词语的unigram概率;Step1:对于给定的字符串句子,找出所有可能的分割方式...
2020-02-28 23:56:58
1253
1
原创 Pytorch中torch.Tensor和torch.tensor()以及其他Tensor类型的区别
torch.Tensor()默认是torch.FloatTensor()的简称,创建的为float32位的数据类型;torch.tensor()是对张量数据的拷贝,根据传入data的类型来创建Tensor;其他数据类型,如LongTensor,FloatTensor等,都是创建相对应的数据类型;...
2020-02-13 16:40:10
1339
原创 百面机器学习笔记
第三章 经典算法–支持向量机SVM的第一个问题:对于任意线性可分的两组点,在SVM分类的超平面上的投影都是线性不可分的。证明大概是这样的:首先通过反证法证明,存在一个超平面,使得SVM让所有支持向量在该超平面上的投影依然可分,但是对于可分的这个情况,支持向量却存在更优的超平面,因此不满足于SVM的前提超平面是"最大化的间隔平面"的定义,故证明投影是线性不可分的。接着作者又补充了证明,即刚才...
2019-12-12 21:07:41
318
原创 Kaggle入门--泰坦尼克号存活率预测(完整流程)
1. 通过热力图的方式来查看缺失的数据sns.heatmap(train.isnull(), yticklabels=False, cbar=False, cmap='viridis')tip:对于有些数据集中可能不是显式的存在缺失值,而是把缺失值替换成了特殊的字符,这种情况的话可以先将特殊字符替换为np.nan,再用isnull()函数。2. 查看离散变量和连续变量的属性# 统计离散变...
2019-12-06 23:41:07
3265
原创 数据分析常用处理方法总结
一. 查看每列的数据结构def print_col_info(dataset): '''print info of every column in dataset: detailed info includes: 1, values 2, value type num''' col_num=dataset.shape[1] for i in ran...
2019-12-04 17:21:47
444
原创 LeetCode第一阶段(一)【数组篇】
LeetCode 283 Move Zeros给定一个数组nums,写一个函数,将数组中所有的0挪到数组的末尾,而维持其他所有非0元素的相对位置。举例:nums = [0,1,0,3,12],函数运行后的结果为[1,3,12,0,0]程序初始:传入的是原始数组numsclass Solution: def moveZeroes(self, nums: List[int]) ->...
2019-09-16 09:56:42
852
原创 最优化方法问题总结
8月2日:解释梯度下降法和牛顿法原理:梯度下降法:泰勒展开到一次项,忽略二次以上的项,用一次函数来线性代替,最后通过移项来得到迭代式;牛顿法:把函数展开未二次,忽略二次以上的项,用二次函数来近似代替,最后通过对二次的函数求梯度,让梯度为0来得到迭代式;一句话解释下梯度下降及牛顿法:梯度下降法是沿初始点梯度向量的反方向进行迭代,进而得到函数的极值点,参数迭代公式为:xk+1=xk−γ∇f...
2019-08-02 17:32:16
1382
原创 掌握Git工作流(三)--git工作流
实际工作流掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. 创建仓库gitingnore文件是干吗的,当我们在开发运行.py结尾的文件时,经常会产生一个文件为*.pyc,这个文件对工程没有用,同时我们也不想让git管理这些文件,这时就需要在创建仓库时添加gitinnore,让它对这些文...
2019-07-05 17:13:35
571
原创 掌握Git工作流(二)--git分支管理
分支管理大纲:分支就相当于是工厂里的流水线,分支之间是互相不会影响的。掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. git 分支基本操作也可以理解为两条流水线;HEAD是指向当前分支,分支才指向当前的版本。...
2019-07-05 17:09:33
458
原创 掌握Git工作流(一)--git基本操作
基本操作大纲:掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. git 简介git 采用分布式系统管理,可以方便的管理某一个目录下的代码二. 安装与配置三. 创建一个版本库新建一个目录 git test ,在git test目录下创...
2019-07-05 16:58:55
532
原创 关键词提取
一般来说,TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景,基于文档本身的关键词提取还不是非常足够,有些关键词不一定会显式的出现在文档中,对于一些需要表现出文中没有的关键词提取,即叫主题模型。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...
2019-06-30 21:00:12
452
原创 N-GRAM文本挖掘
N-GRAM介绍:N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成,用公式表示N-Gram语言模型如下:P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...
2019-06-27 17:15:21
972
原创 tensorflow遇到ImportError: Could not find 'cudart64_100.dll'错误解决
在安装tensorflow的时候,当用ipython使用import tensorflow出现的错误ImportError: Could not find 'cudart64_100.dll'简答:仔细分析错误的类型、原因搞清自己的tensorflow以及CUDA版本换用对应版本进行解决一. 错误类型原因...
2019-06-21 21:37:55
74366
53
原创 NLP基础-命名实体识别(一)基于规则
命名实体识别命名实体识别(Named Entity Recognition,简称NER)与自动分词,词性标注一样,命名实体识别也是自然语言处理中的一个基础任务,其目的是识别语料中的人名、地名、组织机构名等命名实体。基于规则的通常有两种方法第一是基于正则表达式的匹配,第二可以通过StanfordCoreNLPStanfordCoreNLP方法:ner.py: 主调用文件,用来读取文本#...
2019-06-13 11:19:11
7217
原创 NLP基础-词性标注应用去除停用词
词性标注词性标注的应用就是通过词性来进行过滤,从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性,第二步是把文件读进来后,先进行分词,根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...
2019-06-07 21:56:40
4165
原创 NLP基础-准确分词(使用工具分词)
关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的原理可以参考:自然语言处理NLP-准确分词(原理)1. 加载字典来保证词可以分准对一些专业的名词来说,使用原有的词库可能无法很好的将词分开,比如在对医疗文本进行分类时,诸如:联合奥沙利铂、氟尿嘧啶单药等专用的药品名词。jieba中自定义词典的加载将开始没分准确的词放入字典中,就可以对其正确分词jieba中的词典,通过...
2019-06-04 21:37:15
1266
原创 深刻理解Python的类
面向对象类的定义函数与方法的区别类与对象构造函数面向对象就是对现实世界的一些刻画;类的定义,浅谈函数与方法的区别,类与对象,构造函数,区别模块变量与类的变量,类变量与实例变量,类与对象的变量查找顺序,self与实例方法,在实例方法中访问实例变量与类变量,类方法,静态方法,成员可见性公开私有,没有什么是不能访问,继承,super关键字,类的定义类的最基本的作用就是封装,类只负责去定义,去刻画...
2019-05-05 14:10:17
747
2
原创 NLP工具包安装配置(附一键下载requirements.txt)
自然语言处理笔记一.NLP与Py编程常用py开发包numpynumpy用于矩阵运算pip install numpyNLTKNLTK是自然语言工具处理包pip install nltkGensimGensim:用于自动提取语义主题pip install gensim下载whl文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/,...
2019-05-04 15:59:55
932
原创 Flask编程总结-鱼书项目
Flask 高级编程一. flask基本原理视图函数fisher.py:定义视图函数©通过装饰器来给函数定义一个路由,从而可以通过http请求来访问到这个函数;基于函数的视图很难去实现代码的复用;from flask import Flaskapp = Flask(__name__)@app.route('/hello')def hello() return 'hell...
2019-05-04 10:50:12
1643
2
原创 Python数据分析与挖掘实战总结
Python数据分析与挖掘实战第三章 数据探索3.1 数据质量分析3.1.1 缺失值分析3.1.2 异常值分析3.2 数据特征分析3.2.1 统计量分析3.2.2 贡献度分析3.2.2 相关性分析第三章 数据探索3.1 数据质量分析3.1.1 缺失值分析缺失值的处理分为三种情况:删除存在缺失值的记录;对可能的数据进行插值:拉格朗日插值,牛顿插值法:3.1.2 异常值分析首先可以...
2019-03-29 22:06:46
7296
2
原创 DW集训营数据库Mysql梳理[六]
DW集训营数据库Mysql梳理[六]1 行程和用户(难度:困难)2 各部门前3高工资的员工(难度:中等)3 分数排名(难度:中等)1 行程和用户(难度:困难)项目十:行程和用户(难度:困难)Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘com...
2019-03-04 18:56:59
272
原创 DW集训营数据库Mysql梳理[五]
(3月4号之前将内容补完)学习内容数据导入导出 (见附件)将Excel文件导入MySQL表MySQL导出表到Excel文件作业项目七: 各部门工资最高的员工(难度:中等)创建Employee 表,包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。±—±------±-------±-------------+| Id | Name | ...
2019-03-03 21:40:28
667
原创 DW集训营数据库Mysql梳理(四)
(今天会把三四一起完成)学习内容MySQL别名INNER JOINLEFT JOINCROSS JOIN自连接UNION以上几种方式的区别和联系作业项目五:组合两张表 (难度:简单)在数据库中创建表1和表2,并各插入三行数据(自己造)表1: Person±------------±--------+| 列名 | 类型 |±-----------...
2019-03-03 08:49:40
449
原创 DW集训营数据库Mysql梳理(三)
(先行打卡,在2号中午前补上)项目三:超过5名学生的课(难度:简单)创建如下所示的courses 表 ,有: student (学生) 和 class (课程)。例如,表:±--------±-----------+| student | class |±--------±-----------+| A | Math || B | En...
2019-03-01 17:59:43
367
原创 DW集训营数据库Mysql梳理(二)
导入示例数据库首先创建并打开数据库,接着在数据库下执行sql或者将sql语句复制执行sql语句。SQL是什么?MySQL是什么?SQL即结构化查询语言(Structured Query Language),是一种特殊的数据库查询和程序设计语言,用来对数据进行crud。 MySQL是一个关系型数据库管理系统。查询语句 SELECT FROM语句解释 :查询表达式去重语句:selec...
2019-02-28 16:53:26
346
原创 DW集训营数据库Mysql梳理(一)
一. 数据库基础知识数据库定义保存有组织的数据的容器(通常是一个文件或一组文件)关系型数据库二维表某种特定类型数据的结构化清单行表中的一个记录列表中的一个字段,所有表都是由一个或多个列组成的;主键一列(或一组列),其值能够唯一标识表中的每一行;外键二.MySql数据库管理系统数据库数据表视图视图是虚拟的表,与包含数据的表...
2019-02-26 09:36:11
971
原创 Python进阶笔记(六)Socket编程
6.1 HTTP,Socket,TCP应用层,传输层,网络层,数据链路层,物理层;socket不属于任何协议,相当于是一个API,可以直接与传输层打交道,怎么和TCP打交道呢?根据系统提供的接口来进行编程;插座将设备和电连接起来;HTTP协议是单向的,B只能响应A的请求;socket的协议的内容是AB可以随时互相发;网络模型是我们理解服务器交互的一个关键;socket本身不是网络...
2019-02-24 23:39:48
255
原创 Python进阶笔记(五)迭代器和生成器
5.1 迭代协议迭代协议:迭代器是访问集合类元素的一种方式,一般是用来遍历数据;for循环也可以遍历数据,能完成for循环是因为背后的迭代器在产生作用;迭代器和以下标的访问方式不一样,迭代器是不能返回的;迭代器只能一条一条返回,而且迭代器提供了一种惰性的访问数据的方式,生成器背后也是迭代器,其可以让我们在访问数据时才会计算或者获取数据;下标的访问方式的原理是__getitem__;...
2019-02-23 00:07:19
348
原创 Python进阶笔记(三)深入理解序列类
三.自定义序列类3.1 py中的序列分类第一个维度通过序列存储数据的类型:容器序列:list,tuple,deque;扁平序列:str,bytes,bytearray,array.array;第二个维度通过序列是否可变来进行区分:可变序列:list,deque,bytearray,array不可变:str,tuple,bytes序列类型有一个特性就是其可以用for进行遍历;3....
2019-02-20 10:35:27
360
原创 Python进阶笔记(四)深入Python的set和dict
三.深入类和对象3.1 鸭子类型和多态鸭子类型:当看到一只鸟走起来像鸭子,游泳起来像鸭子,叫起来也像鸭子,那么这只鸟就可以被称为鸭子。
2019-02-13 10:01:02
314
原创 Python进阶笔记(二)魔法函数
二.魔法函数2.1 什么是魔法函数Python中的魔法函数就是以双下划线开头和结尾的函数,这些函数可以让我们自己随意的制定自定义类的特性。魔法函数可以在任意一个自定义类中重写,因此它其实不是object类的一个方法。如果没有魔法函数,我们想遍历一个类对象,需要这样:有了魔法函数,再去调用for语句时,for语句实际上会去找Company类这个对象,它有没有__getitem__这个函...
2019-02-12 00:39:58
661
原创 Python进阶笔记(一)万物皆对象
一.Python一切皆对象1.1 函数和类也是对象,属于python的一等公民可以赋值给一个变量:# 函数可以给赋值为一个变量def ask(name="bobby"): print(name)my_func = askmy_func("bobby")# 类可以赋值为一个变量class Person: def __
2019-02-10 23:44:42
964
nlp-requirements安装包
2019-06-08
selenium webdriver第三版
2018-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅