自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

IT届的小学生

如果建模是做爱,你不能简单的进入,做到一半然后就睡觉了。

原创 自然语言处理之分词、命名主体识别、词性、语法分析-stanfordcorenlp-NER(二)

转载请注明出处:https://blog.csdn.net/HHTNAN 在前面我们介绍了Stanford CoreNLP, 自然语言处理之命名实体识别-tanfordcorenlp-NER(一) 功能列表 工具以及对各种语言的支持如下表(英文和中文支持的最好),分别对应:分词,断句,...

2018-12-18 14:20:32 2308 3

原创 自然语言处理-错字识别(基于Python)kenlm、pycorrector

中文文本纠错划分 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写...

2018-11-15 13:54:24 10907 16

原创 从零学习人工智能,开启职业规划之路!

小学生都开始接触 Python 语言了!!!我还有什么理由不努力进步!

2018-07-24 13:11:07 17774 58

原创 mongodb(从0到1),11天mongodb初级到中级进阶秘籍

MongoDB是一个NoSQL数据库。 它是一个开源,跨平台,面向文档的数据库。此MongoDB chat包括MongoDB数据库的安装,IDE选择,基本操作等,具体内容如下: 内容提要: 1、简述NOSQL与mongodb概念理解 2、安装与配置mongodb与使用IDE 3、连...

2018-01-06 11:07:31 1746 0

原创 windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数)

windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数) TF数据生成方式:参考TF数据生成12法 TF基本原理与概念理解: tensorflow(一)windows 10 64位安装tensorflow1.4与基本概念解读tf.global_v...

2018-01-05 15:33:27 1533 1

原创 python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库

转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 这里写链接内容 一、 基于结巴分词...

2017-08-02 17:13:10 33297 2

原创 【C/C++ 2】Clion配置与运行C语言

【C/C++ 1】Clion配置与运行C语言 【C/C++ 2】Clion配置与运行C语言 一、C++调用外部文件中的函数 方法一、 在当前项目中建一新项目,把下列文件添中到项目中      主函数map1.cpp,其中添加 #include “map7.h”, 方法二: 在主函数map1.cpp...

2020-05-27 17:34:51 133 0

原创 【C/C++ 1】Clion配置与运行C语言

一、Clion配置

2020-05-25 22:57:58 76 0

原创 python与java实现余弦相似度,以及点乘和星乘的区别

文章目录矩阵乘法,星乘(*)和点乘(.dot)的区别1.基本示例2. 总结python实现余弦相似度java实现余弦相似度 矩阵乘法,星乘(*)和点乘(.dot)的区别 1.基本示例 import numpy a = numpy.array([[1,2], [3,...

2020-04-15 22:41:46 135 0

原创 知识图谱(二):图数据库neo4j的Linux安装与基本使用

文章目录linux(centos6.4) 配置Neo4j一、首先安装JDK1.首先进入到root用户下2.添加sudo文件的写权限3.编辑sudoers文件4.撤销sudoers文件写权限,命令:二、下载JDK三、配置环境变量1.用vi命令在环境变量中加上jdk路径的环境变量2.然后执行sourc...

2020-04-08 14:57:49 160 0

原创 自然语言处理-搜索中常用的bm25

BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。 关于Bim BIM(二元假设模型)对于单词特征,只考虑单词是否在doc中出现过,并没有考虑单词本身的相关特征...

2019-11-22 19:29:39 227 0

原创 TF flags的简介

1、TF flags的简介 1、flags可以帮助我们通过命令行来动态的更改代码中的参数。Tensorflow 使用flags定义命令行参数的方法。ML的模型中有大量需要tuning的超参数,所以此方法,迎合了需要一种灵活的方式对代码某些参数进行调整的需求 (1)、比如,在这个py文件中,首先定义...

2019-10-25 14:55:42 268 0

原创 python 下载模块加速实现记录

加速pip下载:更换pip源 pip下载python包时默认使用国外源,下载比较慢,可以考虑替换为国内源。 临时修改源 清华源 清华大学的pip源,它是官网pypi的镜像,每隔5分钟同步一次,推荐使用。 pip install -i https://pypi.tuna.tsinghua.edu.c...

2019-09-26 10:43:26 212 0

原创 DeepWalk模型的简介与优缺点

1、DeepWalk [DeepWalk] DeepWalk- Online Learning of Social Representations (SBU 2014) word2vec是基于序列进行embedding;但是,实际上实体之间的关系越来越复杂化、网络化。这个时候sequence em...

2019-09-18 10:50:26 902 0

原创 nlp模型-bert从入门到精通(二)

命名实体识别 首先下载相应bert 模块 pip install bert-base==0.0.9 -i https://pypi.python.org/simple 也可参考官网处理 安装 验证

2019-09-11 16:58:27 623 0

原创 nlp模型-bert从入门到精通(一)

文章目录基础资料准备从0到1了解模型的优缺点BERT这个模型与其它两个不同的是:BERT模型具有以下两个特点:模型的输入参考资料: 在说内容之前先把,bert基本资料准备一下 基础资料准备 tensorflow版:点击传送门 pytorch版(注意这是一个第三方团队实现的):点击传送门 论文:点击...

2019-09-11 15:18:26 1270 0

原创 c++学习之路:从入门到精通

一、配置环境:clion 二、【C++学习】如何在Clion中生成多个可执行文件

2019-08-07 13:58:01 240 0

原创 MySQL 中对字符串进行操作:字符串截取

1、left(name,4)截取左边的4个字符 SELECT LEFT(201809,4) 年 结果:2018 2、right(name,2)截取右边的2个字符 SELECT RIGHT(201809,2) 月份 结果:09 3、SUBSTRING(name,5,3) 截取name这个字段 从...

2019-08-02 11:11:25 447 0

原创 mac下安装并配置Clion激活,activation code报错修复与最新激活码

1.brew cask install clion安装clion IDE 2.在/etc/hosts文件中添加: 0.0.0.0 account.jetbrains.com 3.打开Clion,输入激活码 K71U8DBPNE-eyJsaWNlbnNlSWQiOiJLNzFVOERCUE5FI...

2019-08-02 10:14:50 2656 0

原创 keras model.compile损失函数与优化器

概述 损失函数是模型优化的目标,所以又叫目标函数、优化评分函数,在keras中,模型编译的参数loss指定了损失函数的类别,有两种指定方法: model.compile(loss='mean_squared_error', optimizer='sgd') ...

2019-07-12 10:47:31 1996 0

转载 hive 转义字符的使用,以及regexp_extract用法

语法: regexp_extract(string subject, string pattern, int index) 返回值: string 说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。 第一参数: 要处理的字段 第二参数: ...

2019-07-07 16:42:03 1121 0

原创 Query意图识别分析

outline 近段时间在研究搜索的相关技术,在工作中主要涉及到资讯搜索功能的实现。我们采用了elasticsearch搜索引擎,es基础和es进阶1。由于需要对搜索功能进行迭代,所以笔者继续深入研究搜索原理和性能优化。本文主要研究以下几点: 什么是搜索 搜索评价指标 意图识别 query改写 什...

2019-07-02 15:05:55 913 0

原创 tensorflow之tf.tile\tf.slice等函数的基本用法解读

文章目录tf.tiletf.slicetf.square()tf.reduce_sumtf.multiply()tf.matmul()tf.truediv tf.tile 解读: tensorflow中的tile()函数是用来对张量(Tensor)进行扩展的,其特点是对当前张量内的数据进行一定规则...

2019-06-27 19:15:13 298 0

原创 对pandas 数据进行数据打乱并选取训练机与测试机集

描述 在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。 需要用的方法如下: 注:df代表一个pd.DataFrame df = df.sam...

2019-06-26 23:35:30 1084 0

原创 mac 安装hanlp,以及win下安装与使用

hanlp简介: HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构 清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音...

2019-06-25 11:55:19 529 0

原创 python 保存list数据

对于一个列表a[]: 保存 filename = open(‘a.txt’, ‘w’) for value in a: filename.write(str(value)) filename.close() 读取 f= open(“a.txt”,“r”) a = f.read() f.close(...

2019-06-24 15:34:31 6327 0

原创 mac 下常用快捷键,mac启动ftp

Command + K清屏 Command + T新建标签 Command + M最小化窗口 Command +W 关闭当前标签页 Command + S 保存终端输出 Command + D 垂直分隔当前标签页 Command + Shift + D 水平分隔当前标签页 Command + sh...

2019-06-20 20:35:12 362 0

原创 安装Anaconda3 后,怎样使用 Python 2.7?

首先在anaconda官网下载对应版本的anaconda3 安装anaconda3 打开anaconda3,在界面左侧点击Environments,再点击下面的Create按钮会出现如下窗口, 给要创建的Python环境命名并选择版本,选好后点击Create即可生成新的Python版本环境,如下图...

2019-06-19 21:29:29 2956 0

原创 TensorFlow2.0 问世,Pytorch还能否撼动老大哥地位?

文章目录TensorFlow 2.0 previewTensorFlow 2.0 上线市场占有率全球情况中国概览TensorFlow与PyTorch区别TensorFlow2.0新特性主要变化简要总结1.0到2.0过渡自动过渡兼容方面小结参考文献 TensorFlow 2.0 preview ...

2019-03-19 15:47:00 3974 0

原创 接口压力测试:Siege压测安装、使用和说明

简介 siege是一款开源的压力测试工具,可以根据配置对一个WEB站点进行多用户的并发访问,记录每个用户所有请求过程的相应时间,并在一定数量的并发访问下重复进行。 下载安装 环境:centos 6.4 私有服务器 官网地址:http://download.joedog.org/siege...

2019-03-01 10:07:42 579 0

原创 Pattern matching: The gestalt approach一种序列的文本相似度方法

Pattern matching: The gestalt approach python 比较两个序列的相似度,不需要分词 案例1 import difflib a="做子宫肌瘤微创手术用多少钱" b=...

2019-02-26 13:39:13 567 0

原创 免费的专利下载教程(知网、espacenet强强联合)

本文为作者原创,转载请注明出处!!!https://blog.csdn.net/HHTNAN 你是不是一直在苦恼如何下载发明专利,搜了好久好么是花钱的要么是下载不下来的。 下面推荐一个免费形式。 1.获取网站 首先进入https://www.epo.org/index.html 2.进入知网 按...

2019-02-19 09:50:23 3569 2

原创 Linux 后台运行python .sh等程序,以及查看和关闭后台运行程序操作

1、运行.sh文件 直接用./sh 文件就可以运行,但是如果想后台运行,即使关闭当前的终端也可以运行的话,需要nohup命令和&命令。 (1)&命令 功能:加在一个命令的最后,可以把这个命令放在后台执行 (2)nohup命令 ...

2019-01-31 15:43:14 1540 0

原创 python过滤敏感词记录

简述: 关于敏感词过滤可以看成是一种文本反垃圾算法,例如 题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」 代码: #coding=utf-8 def filterwords(x): ...

2019-01-23 13:19:09 3056 6

原创 文本去重的技术方案讨论(一)

对于文本去重来说,我个人处理上会从数据量、文本特征、文本长度(短文本、长文本)几个方向考虑。 常见的去重任务,如网页去重,帖子去重,评论去重等等。 好的去重任务是不仅比对文本的相似性,还要比对语义上的相似性。 下面我们来介绍下文本去重的方案。 1.传统签名算法与文本完整性判断 一、传统签...

2019-01-18 14:47:25 1207 0

原创 GBDT与xgb区别,以及梯度下降法和牛顿法的数学推导

为什么要介绍梯度下降法和牛顿法那? 这里提及两个算法模型GBDT和XGBoost,两个都是boosting模型。 GBDT和xgb的目标函数是不同的,同时针对其目标函数中的误差函数 L(θ) 的拟合方式也有差异: GBDT利用一阶泰勒展开两项,做一个近似 xgboost利用二阶泰勒展开...

2019-01-05 15:48:32 1114 0

原创 mongodb11天之屠龙宝刀(一)Linux( CentOS 6.8)安装mongodb

获取mongodb-3.4.6 [root@xxxx local]# curl -o mongodb-linux-x86_64-3.4.6.tgz https://fas tdl.mongodb.org/linux/mongodb-linux-x86_64-3.4.6.tgz 下面是安装过...

2019-01-04 14:28:02 455 0

原创 2018个人年度工作总结与2019工作计划(互联网)

2019新的一年已经到来,如何制定个人it工作计划呢? 下面是收集整理的it个人工作计划,欢迎阅读。 下手方向 其实无论你是否是IT行业都可以从以下5个方向入手。 写好年度总结的基本要点 年度工作总结时应本着实事求是的态度,尽量避谈一些形式化的东西。一篇完美的工作总结必须是因人而异,...

2019-01-02 21:06:04 21603 2

原创 小白量化投资交易入门课(python入门金融分析)

推荐一门课程:课程连接 课程名称:死工资一党课程:小白量化投资入门课(python) 课程定位:本课程为视频课程,全面覆盖Python核心编程知识与量化交易知识点,并结合机器学习于深度学习对数据进行解读,做数据的主人。 参考课程章节如下表: 课程章节课程内容与职业能力要求课时名称 一...

2018-12-20 18:48:45 4006 0

原创 自然语言处理之命名实体识别-tanfordcorenlp-NER(一)

CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理...

2018-12-18 11:27:40 1904 0

提示
确定要删除当前文章?
取消 删除