自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (1)
  • 收藏
  • 关注

转载 word2vec 的个人理解

嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google Assistant、Alexa、Google翻译,甚至智能手机键盘进行下一词预测,那么你很有可能从这个已经成为自然语言处理模型核心的想法中受益。在过去的几十年中,嵌入技术用于神经网络模型已有相当大的发展。尤其是最近,其发展包括导致BERT和GPT2等尖端模型的语境化嵌入。...

2019-12-11 17:47:46 420

原创 python 字典树的应用语言模型统计词频

class TrieNode(): def __init__(self,value=None,count=0,parent=None): self.value = value #值 self.count = count #频数统计 self.parent = parent #父结点 self.children = {} #子...

2019-12-05 13:32:47 405

原创 beam search与维特比算法(vertribe算法)的应用心得(环境 python3.6 windows)

关于这两个算法的定义请自行百度我这里讲一下我自己的运用的nlp场景以及在这个nlp场景下各自的不同:首先这两个算法都是我都是用来处理指数级的排列组合(全部序列进行笛卡尔积组合)(时间复杂度N**M) , 而维特比 和beam search 算法 (时间复杂度N*N*M)注:M为序列的长度 N为我们的状态集合的大小 这里面beam search 是要比我们维特比稍微快一点的 因为 这里面...

2019-12-05 11:36:50 910

原创 python3 中文分词正向 反向最大匹配与HMM 分词

数据所需数据集:https://pan.baidu.com/s/15EKb378-ds_5FNF9614Q1g 提取码:ebkd代码如图#反向匹配class LMM(): def __init__(self, dic_path): self.dictionary = set() self.maximum = 0 # 读取词典...

2019-06-25 09:20:07 899 1

原创 基于统计生成相似句(同义句),再用神经网络rnn语言模型判断句子的通顺性!

主要生成相似句 再用神经网络判定句子的通顺性直接上代码 两部分工作:第一部分基于统计生成相似语料: 借助网上的python的github上的synonyms(自行百度):https://github.com/huyingxi/Synonyms 这里要说一下 分词不要用 垃圾 的jieba 可以考虑hanlp 或者其他的 ; 效...

2019-05-30 16:43:56 4461 3

原创 电商搜索场景结构化匹配 使用命名实体识别(NER)+类目预测(意图识别)+bert4keras实现k-bert

电商搜索场景结构化匹配 使用命名实体识别(NER)+类目预测(意图识别)+同义词+bert4keras 实现kbert...

2022-01-12 15:54:59 2835

原创 dockerfile 部署在线推理tensorflow-serving+tornado+python3.5深度学习模型服务

dockerfile 部署tornado+python3+tensorflow-serving+tf服务

2022-01-08 10:19:29 669

原创 电商搜索文本匹配使用BM25算法召回+其他匹配特征

电商搜索bm25算法融合其他特征做电商召回

2022-01-07 10:38:33 2557

转载 BP算法

版权声明:本文为CSDN博主「笨拙的石头」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_32241189/article/details/80305566作为深度学习领域的破冰之作,BP神经网络重新燃起了人们对深度学习的热情.它解决了DNN中的隐层传递中的权重值的计算问题.那么,BP算法...

2020-04-26 17:11:13 597

转载 NLP中LSTM 的attention 机制的应用讲解

文章转载:https://www.cnblogs.com/dllearning/p/7834018.htmlpdf 版的链接 :https://pan.baidu.com/s/1bkAnCNRvmGzg8fLeIdzHJA1.为什么要使用attention 由于encoder-decoder模型在编码和解码阶段始终由一个不变的语义向量C来联系着,编码器要将整个序列的信息...

2019-12-23 14:51:13 3591

原创 kmp算法的使用 仅仅是使用 暂时不做深入的讲解

"""问题 :我想匹配一个句子中某一个token 1.是否出现过 2.出现的次数 3.出现的下标位置在哪里 案例 ner标注的时候要给出token求解的方案是 kmp这里面我怎么理解那个next 指针???"""#实现我们的算法结构def KMP_algorithm(string, substring): '''...

2019-12-18 10:48:34 175

原创 python n-gram语言模型 kenlm 傻x 式安装 以及使用

找一台公司的linux服务器:在服务器上依次执行以下几步:git clonehttps://github.com/kpu/kenlm.gitmkdir -p buildcd buildcmake …make -j 4别问我为什么 ,就是可以用!!省事安装完后直接找到预料训练的时候执行,在build文件里执行:bin/lmplz --minimum_block 1M --v...

2019-09-29 13:43:22 1168 1

原创 python 文本生成实现

主要涉及到同义词替换+rnn神经网罗进行句子通顺性判别:代码地址:https://gitee.com/zhoubingbing/text_generation/tree/master代码 第一部分: 进行中文预料文集进行分词得到如下文本(空格或者\t分隔): 例句 "我 爱 中国" 从中文语料库中进行1-gram 词汇集...

2019-08-24 22:05:58 1755

原创 台湾大学机器学习课程视屏(第一期,第二期)全部资料 ppt

链接:https://pan.baidu.com/s/1K0sa8xYWJ0ObH0WKkBkfDA提取码:v0np复制这段内容后打开百度网盘手机App,操作更方便哦

2019-07-20 11:20:08 171

原创 tensorflow2.0 教程2

# -*- coding: utf-8 -*-# Created by 'Zhou Bingbing' on 2019/7/6import osimport tensorflow as tf# t= tf.constant(['cafe','coffee','咖啡'])# print(tf.strings.length(t,unit='UTF8_CHAR'))# s=tf.S...

2019-07-11 09:12:01 619

转载 AC自动机的入门级讲解

转载:https://www.cnblogs.com/crazyacking/p/4002807.html 一种多模式串匹配算法,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一。  简单的说,KMP用来在一篇文章中匹配一个模式串;但如果有多个模式串,需要在一篇文章中把出现过的模式串都匹配出来,就需要Aho-Corasick automaton算法了。  我的理解:A...

2019-07-10 14:08:41 195

原创 tensorflow 2.0学习教程一

import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport sklearnimport pandas as pdimport osimport sysimport timeimport tensorflow as tffrom tensorflow import keras'...

2019-07-04 15:08:03 369

转载 自然语言处理主题模型LDA理解与应用

LDA八卦:链接:https://pan.baidu.com/s/1GcWEE1mDd6MMz2eciir7tA提取码:v1ir主题模型得ppt :链接:https://pan.baidu.com/s/1ZEYvFUMNMiHpBM0yUZrT3A 提取码:8p2r q强烈推荐学习文档 经典得一笔转载地址:https://www.jianshu.com/p/74ec7...

2019-07-03 14:30:24 645

转载 机器学习---文本特征提取之词袋模型与tfidf特征

假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢?(转载 :https://www.cnblogs.com/HuZihu/p/9576794.html)一个简单的方法就是使用词袋模型(bag of wor...

2019-06-28 16:02:51 2756

转载 BM25实现两个句子的相似度

代码:https://gitee.com/zhoubingbing/BM25参考链接:https://blog.csdn.net/u010483897/article/details/83010426

2019-06-06 17:23:09 2185 1

原创 django中前端HTMl 怎么传递数组给后台(js,ajax)

今天讲一下在项目中的使用js,ajax 怎么传递数组到后台:前端界面的效果: (业务是进行自然语言的NER)传递两个数组:一个中文字符组成的数组一 ;另一个是标记中文字符(这里是一个下拉option)的数组二;function post_annotation_data(data) { var array1 = new Array(); var arr...

2019-05-20 10:04:56 3566

原创 python3 使用fasttext 进行文本分类(一定要用linux )

直接上代码 怎么用 ,具体原理 你参照其他人的环境 python3 linux pycharm训练语料文件: 具体的文件这里我涉及到业务的问题没办法放出来 格式就是excel 如下图 后面用pandas 处理读取这个函数时处理成我们fasttext 能够接受的格式def writeData(sentences,fileName): out=op...

2019-05-10 14:02:20 3594 1

原创 python3 实现相似句语料生成-----爬取有道,google ,百度翻译生成

这里面涉及到 js加密的东西具体可以参照 python 中execjs这个插件直接上代码: https://gitee.com/zhoubingbing/google_translation 百度 :import execjsimport requestsclass Baidu(): @staticmethod def create_en(text)...

2019-05-06 14:03:15 2424 3

原创 python根据句子标点符号进行区分句子内容

re_han= re.compile(u"([\u4E00-\u9FD5a-zA-Z]+)")blocks=re_han.split('今天天气很好,我想出去玩!“')print(blocks)['', '今天天气很好', ',', '我想出去玩', '!“']

2019-05-06 14:02:42 1615

转载 关于NLP中自然语言的处理---- bert算法的使用心得 (新手)

这里只讲述怎么 用bert来处理 我们文本分类的问题: 具体 代码 见github :具体的bert 模型可以参考 github 上面的bert 以及肖博士的bert 服务首先说一下 bert 里面 的 run_classifier.py 用来进行文本分类 run_squad.py 用来做阅读理解类型的...

2019-04-15 21:57:50 3782 1

原创 关于python3爬取'http://www.cde.org.cn(国家药品监督管理评审中心)的思路 及源码

对于这样一个网站 :1.selenium 但是很遗憾告诉你 后天会识别出来你用的selenium (这里可以考虑注入js,规避)2.pyqt5来进行我们的网页信息提取3.利用webbrowse(调用电脑上安装浏览器,非插件selenium) browsercookie requests 来进行爬取这里我们采用方案3 思路如下: 先用webbrowse 打开浏览器然后 利用b...

2019-04-15 21:36:03 3942 4

原创 关于flask 中url管理(限制登录登出)的问题解决

主要针对设置cookie 在没有用户登录的时候避免直接进入有用户cookie 的界面,具体见如下代码:首先是我们的 cookie 在登录的时候进行生成##部分代码:主要用flask 中的make_response() 然后设置cookie 这里UserServer.geneAuthCode ()为加密 可以简单的理解为hash,user_info为我们的mysql数据库中的数据对象us...

2019-04-08 09:24:15 977

原创 flask 中ajax 传递参数应用场景与form表单传递参数的场景小心得

首先是ajax 在flask中的应用步骤的实现:在前端html中的表现形式:function recover_send(uid){ var act='recover'; var id=uid; $.ajax({ url:'/account/ops', type:'POST', ...

2019-04-05 12:10:58 1752

原创 pandas 去重

'''处理我们重复得数据'''data=pd.DataFrame({'k1':['one','two']*3,'k2':[1,1,3,3,4,4]})data['v1']=range(6)print(data)print(data.drop_duplicates(['k1','k2'],keep='last')) #保留后面的一条数据...

2019-04-02 11:41:48 4213

原创 python 中Django/flask web开发中 ajax 传递参数

以上图为例传递 登录参数到后台login_namelogin_pwddef login():##flask 后台 if request.method=='GET': return render_template( "user/login.html" ) req=request.values login_name=req['login_...

2019-04-02 11:35:58 199

原创 利用flask 框架搭建微信小程序(完全免费,知识传播才叫知识)

百度网盘:https://pan.baidu.com/s/1n5CUm5aahoO-HYUYFwQC7g资料 免费共享

2019-04-02 10:06:01 2483 10

原创 Django教程 及完整版免费视频(零基础到精通)

百度网盘:https://pan.baidu.com/s/1egtMXCWtY3yP3ScqVkEPWw共享 资料

2019-04-02 10:03:52 6043 8

原创 python3.X 爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫遇到的ip代理的总结四( pycharm运行,代码篇)

这里面主要讲解的是两个大方向的代码:一个是selenium+chrome中的ip代理:      from selenium import webdriverchromeOptions = webdriver.ChromeOptions()# 设置代理chromeOptions.add_argument("--proxy-server=http://202.20.16.82:1...

2018-10-30 21:52:49 2098

原创 python3.X爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫遇到的selenium中的cookie转requests中的cookie总结三( pycharm运行,代码篇)

直接上代码:import requests    s = requests.Session()    cookies= driver.get_cookies() #这里的driver为上一篇中登陆后获取的driver对象    for cookie in cookies:        s.cookies.set(cookie["name"], cookie["value"]) ...

2018-10-29 21:58:12 682

原创 python3.X爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫遇到的滑块验证码,文字点击的验证码总结二( pycharm运行,代码篇)

今天主要讲一下在处理账号密码类的登陆问题,我这边采取的解决办法是selenium+chrome方案,包括的内容有滑块验证码的破解原理 ,点击样式的验证码的破解以及进入登陆界面后的cookie 转换成requests中的cookies(这里主要是提升爬取的效率):                                                       这里直接上代...

2018-10-29 21:45:00 1327 3

原创 python3.X爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫抓取心得总结一 (ide pycharm运行)##卖简历的别来骚扰##

在面对登陆问题的网站例如向拉钩,大街网,直聘等需要进行模拟登陆的问题,这里我才用的selenium+chrome的方式,进行获取cookies 然后转化成requests中的cookie 再进行具体的内容的抓取这里里面遇到问题如下: 1.登陆时候的验证码识别,这里我遇到的是滑块验证码与点击式验证码主要的解决方式借助第三方的平台识别,后面上传具体的代码 以及...

2018-10-28 22:00:38 4376 1

原创 利用爬虫有道词典进行翻译python3中的内置函数属性功能

from urllib import requestfrom urllib import parseimport jsonimport timeimport randomimport hashlib# if __name__=="__main__":#     response=request.urlopen("http://fanyi.baidu.com")#获取url信息 ,返...

2018-08-08 09:10:34 307

原创 python3.x中socket.getpeername 与socket.getsocketname的区别

1.用getsockname获得本地ip和port2.用getpeername获得对端ip和port要在连接保持的时候调用这两个函数,  

2018-07-31 10:50:37 3869

原创 迭代器的实例对象

实例一:#  写一个实现迭代器协议的类 Primes 让此类可以生成从b开始的n个素数# class Primes:#     def __init__(self, b, n):#        ....#     ....# for x in Primes(10, 4):#     print(x)  # 11 13 17 19class Primes:    def __init__(self...

2018-07-11 20:09:17 314

原创 电子词典的python3 结合网络编程项目实例源码

此次为第一版的python3 电子词典查询词汇,后期会继续跟进程序的交互以及优化客户端:#2018.07.02  今天白天搞定##客户端   服务端之间的连接依靠套接字socket 进程并发 #后期的聊天界面 以及手写字体的识别  语音后可以转换成汉字 ''' 功能主要满足:1.客户端提交查词,登录,注册的需要2.服务端根据客户端的请求注册来进行怕端  '''import sysfrom sock...

2018-07-04 02:56:51 694 1

attention机制.pdf

自然语言的attention

2019-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除