vivian_ll-CSDN博客

原创 Location Prediction综述

2012-Geolocation Prediction in Social Media Data by Finding Location Indicative Wordsfinding location indicative words (LIWs) 朴素贝叶斯 LR2012-Supervised Text-based Geolocation Using Language Models on an Adaptive Gridk-d树 KNN KL散度度量2014-Hierarchical Discr

2021-11-28 16:22:15 1648

原创 PPT技能速成班学习笔记

第一讲对ppt的理解ppt做的好的人，一定是站在观众角度思考的人。审美决定一切。多看。推荐：站酷、花瓣初始化设置：1）撤销次数：文件——选项——高级——编辑选项——最多可取消操作数：1502）自动保存：文件——选项——保存——勾选自动保存，时间间隔10分钟3）幻灯片大小：设计——幻灯片大小第二讲商务图表的应用和美化之道文字文字可以精准思路，使我们从规定好的角度去思考泛滥的特...

2020-11-02 00:05:10 4117 2

原创论文笔记：Ranking Relevance in Yahoo Search

KDD2016 Industry track best paperAbstract相关性是商业搜索引擎的核心问题。查询和url之间的语义差异是提高基础相关性的主要障碍。点击有助于提供提示以提高相关性，但不幸的是，对于大多数尾部查询，点击信息过于稀疏、嘈杂或完全丢失。文中给出了雅虎搜索引擎中相关性解决方案的概述。介绍了基于相关性的三种关键技术:排序方法、语义匹配特征和查询重写。为了增加相关性，时间地点的敏感性对于结果也是很重要的。1. Introduction1）搜索相关性的发展：早期 - 重

2020-09-24 13:32:09 1879

原创 NLP实战之基于seq2seq的有约束文本生成

遇到问题：报错tensorflow.python.framework.errors_impl.InvalidArgumentError: Cannot assign a device for operation embedding/Initializer/random_uniform/RandomUniform: Could not satisfy explicit device specification '' because the node node embedding/Initializer/ra

2020-09-21 22:19:01 1224

原创 NLP实战之语种识别器及Flask部署

**项目简介：**用sklearn里的朴素贝叶斯模型构建一个语种检测的分类器。数据集来自于twitter数据，包含English, French, German, Spanish, Italian 和 Dutch 6种语言。数据集形如：1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme,nl1 millón de afectados ante las inundaciones e

2020-09-21 22:18:50 1409 2

原创 NLP实战之ELMo词向量文本分类

ELMo词向量文本分类原理讲解ELMo出处：论文Deep contextualized word representationsELMo无需标注。原理可参考：从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史-张俊林模型构建与训练中文预训练模型：github上有哈工大的HIT-SCIR/ELMoForManyLangs，多种语言，注意区分有繁体中文和简体中文（网盘下载）两种。该模型是基于pytorch架构的。初始化ELMo变换器配置ELMo环境安装torch

2020-09-21 22:18:38 3136 2

原创 NLP实战之text-Attition-BiLSTM中文文本分类

双向注意力LSTM神经网络文本分类原理讲解TextAttBiRNN是在双向LSTM文本分类模型的基础上改进的，主要是引入了注意力机制（Attention）。对于双向LSTM编码得到的表征向量，模型能够通过注意力机制，关注与决策最相关的信息。其中注意力机制最先在论文 Neural Machine Translation by Jointly Learning to Align and Translate 中被提出，而此处对于注意力机制的实现参照了论文 Feed-Forward Networks with

2020-09-21 22:17:55 3357 2

原创 NLP实战之基于LSTM的诗歌生成器

文本生成-诗词生成案例1.1 文本生成问题文本生成是自然语言处理中一个重要的研究领域，具有广阔的应用前景。国内外已经有诸如Automated Insights、Narrative Science以及“小南”机器人、“小明”机器人、“运动报道机器人”等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。例如，Automated Insights的WordSmith技术已经被美联社等机构使用，帮助美联社报道大学橄榄球赛事、公司财报等新闻。这使得美联社不仅新闻更新速度更

2020-09-21 22:16:57 6124 4

原创 NLP实战之BERT中文情感分析

简单高效的BERT中文文本分类模型开发和部署准备环境操作系统：LinuxTensorFlow Version：1.13.1，动态图模式GPU：12G GPUTensorFlow Serving：simple-tensorflow-serving依赖库：requirements.txt目录结构说明bert是官方源码data是3分类的文本情感分析数据（可直接将.data.tsv）...

2020-09-21 22:15:23 7779 1

原创 NLP实战之HAN文本分类

HAN(层叠注意力)神经网络文本分类原理讲解HAN出处：论文Hierarchical Attention Networks for Document Classification可以参见讲解文献阅读笔记：Hierarchical Attention Networks for Document Classification这篇论文表示，对文档/较长文本进行分类的时候，仅仅对word粒度进行Attention是不够的，还需要对各个句子（短句）进行Attention的学习，不同句子也需要分配不同的权重，每

2020-09-21 22:14:58 2806 2

原创 linux常用命令、快捷键和使用技巧

快捷键Control+u mac下快速删除一行命令常用命令文件传输wget ftp://xxx/路径：获得ftp链接中的文件Scp xxx@xxx:路径：获得work服务器里的文件rz -bey filename：本地win上传文件到远端linux，防止传输大文件时超时导致传输中断sz –bey filename：远端linux传输文件到本地win，防止传输大文件时超时导致传输中断编码file -i ：查看编码iconv -f UTF-8 -t GBK file1 -o file2：转换

2020-09-21 22:09:03 638

原创 NLP实战之textCNN中文文本分类

原理可以参考：使用textCNN进行文本分类的原理Keras的另一个实现可以参考：Keras实现textCNN文本分类模型构建与训练定义网络结构定义一个textCNN类，代码为tensorflow2.x版本。from tensorflow.keras import Input, Modelfrom tensorflow.keras.layers import Embedding, Dense, Conv1D, GlobalMaxPooling1D, Concatenate, Dropout

2020-09-19 23:05:12 2243 1

原创 NLP实战之textRCNN中文文本分类

text-RCNN神经网络文本分类原理讲解RCNN出处：论文Recurrent Convolutional Neural Networks for Text Classification讲解可以参考TextRCNN 阅读笔记网络结构Word Representation Learning. RCNN uses a recurrent structure, which is a bi-directional recurrent neural network, to capture the co

2020-09-19 23:04:58 1714

原创 NLP实战之textRNN-textBiRNN中文文本分类

循环神经网络文本分类原理讲解TextRNN相关论文：Recurrent Neural Network for Text Classification with Multi-Task Learning本文实现TextRNN 的网络结构：基于keras，在代码上的实现和textCNN类似。定义textRNN网络结构和textCNN唯一的区别在于get_model函数。from tensorflow.keras import Input, Modelfrom tensorflow.keras.

2020-09-19 23:04:35 930

原创 NLP实战之Fasttext中文文本分类

Facebook Fasttext简介fasttext是facebook开源的一个词向量与文本分类工具，在学术上没有太多创新点，好处是模型简单，训练速度非常快。简单尝试可以发现，用起来还是非常顺手的，做出来的结果也不错，可以达到上线使用的标准。简单说来，fastText做的事情，就是把文档中所有词通过lookup table变成向量，取平均之后直接用线性分类器得到分类结果。fastText和ACL-15上的deep averaging network(DAN，如下图)比较相似，是一个简化的版本，去掉了中

2020-09-19 23:04:23 10634 4

原创 NLP实战之基于sklearn和基于spark的中文文本分类

1 基于sklearn的机器学习方法完成中文文本分类1.1 文本分类 = 文本表示 + 分类模型1.1.1 文本表示：BOW/N-gram/TF-IDF/word2vec/word embedding/ELMo1.1.2 分类模型：NB/LR/SVM/LSTM(GRU)/CNN语种判断：拉丁语系，字母组成的，甚至字母也一样 => 字母的使用(次序、频次)不一样1.1.3 文本表示词袋模型（中文）：①分词：第1句话：[w1 w3 w5 w2 w1…]第2句话：[w11 w32 w51

2020-09-19 23:02:22 2093

原创 NLP实战之关键词提取与主题模型

中文自然语言处理分析和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个额外的分词工具去把完整的文本中分解成粒度更细的词。1.1 关键词提取1.1.1 基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为

2020-09-19 23:02:08 8095

原创 NLP实战之基本中文处理与词云

文本分析与可视化文本分析与展示在任何建模问题之前，一般我们都会对数据进行一定的分析，文本也不例外，不过文本并不像很多业务数据，是数值形态的，这时候很多统计的方式，是大家理解数据的初步。而文本的可视化，经常会用到词云的形式，词云是很有说服力的一种可视化方式，尤其是对于文本中心内容展示，下面以娱乐类别的新闻数据为例生成词云。代码0. 工具库引入#coding:utf-8__author__ = 'Hanxiaoyang'import warningswarnings.filterwarning

2020-09-19 23:01:52 945 1

原创几种半监督的python实现（标签传播、半监督Kmeans、自训练）

半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法。pythonLabelPropagation和LabelSpreading（1）标记传播算法：优点：概念清晰缺点：存储开销大，难以直接处理大规模数据；而且对于新的样本加入，需要对原图重构并进行标记传播（2）迭代式标记传播算法：输入：有标记样本集Dl，未标记样...

2020-06-18 16:39:29 17103 7

原创面试准备——机器学习中的优化器算法

Adam optimiser的局限性是什么？虽然使用Adam进行训练有助于快速收敛，但结果模型的泛化性能往往不如使用SGD进行动量训练时的泛化性能。另一个问题是，即使Adam有自适应学习率，当使用良好的学习率计划时，它的性能也会提高。特别是在训练的早期，使用较低的学习率来避免发散是有益的。这是因为在一开始，模型的权值是随机的，因此得到的梯度不是很可靠。如果学习率太大，可能会导致模型采取太大的步骤...

2020-06-15 20:17:19 2035 1

原创解决类别不平衡问题的方法综述

样本不平衡怎样解决（在loss前加系数）数据不平衡　　在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时，大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀，都会存在“长尾现象”，也就是所谓的“二八原理”。Focal loss参考网址：https://www.zhihu.com/question/269698662/a...

2020-06-13 17:08:47 19826 3

原创 jieba关键词提取的源码解析

一、简介1.什么是关键词关键词是指能反映文本主题或者意思的词语，如论文中的Keyword字段。关键词提取是文本挖掘领域一个很重要的部分，通过对文本提取的关键词可以窥探整个文本的主题思想，进一步应用于文本的推荐或文本的搜索。常用的关键词提取算法：TF-IDF算法、TextRank算法2.jieba关键词提取简介利用jieba进行关键字提取时，有两种接口。一个基于TF-IDF算法，一个基于TextRank算法。TF-IDF算法，完全基于词频统计来计算词的权重，然后排序，再返回TopK个词作为关键字

2020-06-09 19:12:26 5005 1

原创 win10系统解决office16的VBE6EXT.OLB不能被加载的问题

环境：win10office16原因：本人电脑装上mathtype后某一天突然出现这个问题，打开VB编辑器就内存溢出，不停地弹出提示框，导致无法使用宏。虽然本人电脑上没装WPS，但看网上说很大可能是同时安装了office和WPS导致的。解决方法一打开控制面板，找到程序点开程序和功能找到 Microsoft Office 专业增强版 2016，右键看到更改，点击更改程序运行后选择修复功能单选框一直下一步，等待修复修复完成尝试是否Office运行正常解决方

2020-05-26 22:18:11 14297 13

原创把pip源从国外官方更换到国内镜像

pip国内的一些镜像阿里云 https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban) http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/修改源方法：临时使用：

2020-05-18 17:59:51 3799

原创运筹学中的节约里程法及其python实现

节约里程法是用来解决运输车辆数目不确定的问题的最有名的启发式算法。又称节约算法或节约法，可以用并行方式和串行方式来优化行车距离。Saving Algorithm, 节约算法，又称C-W算法，是由Clarke和Wright于1964年首次提出的，用来解决VRP问题，是重要的物流算法。参考网址：节约里程法-百度百科节约里程算法的python实现C# 节约里程法实现...

2020-05-18 10:55:30 24409 12

原创 jupyter notebook安装和基础使用教程

一、简介Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。即，Jupyter Notebook以网页的形式打开，可以在网页页面中直接编写代码和运行代码，代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档，可在同一个页面中直接编写，便于作及时的说明和解释。组成部分包括网页应用和文档。特点包括编程时具有语法高亮、缩进、tab补全的功能；可直接通过浏览器运行代码，同时在代码块下方展示运行结果；以富媒体格式展示计

2020-05-15 21:54:57 3134

原创 pandas常见函数的用法（apply、groupby、agg）

1. apply方法apply方法就是将函数应用到由列或行形成的一维数组上。可以快速地对列进行处理，尤其是在进行多行计算的时候，相比于传统的轮循计算要高效很多。例如：import pandas as pddf=pd.DataFrame(np.random.randn(4,5),columns=list('abcde'))# 求每列的最大值与最小值的差x = df.apply(lambda x:x.max()-x.min())# 求每行的最大值与最小值的差y = df.apply(lambd

2020-05-15 16:43:40 6494

原创面试准备——计算机原理基础常见问题

常见的HTTP状态码有哪些？200 OK301 Moved Permanently302 Found304 Not Modified307 Temporary Redirect400 Bad Request401 Unauthorized403 Forbidden404 Not Found410 Gone500 Internal Server Error501 Not Im...

2020-03-29 17:05:52 849

原创使用sklearn、matplotlib等库时遇到的问题汇总

xgboost多分类时报错：label and prediction size not match, hint: use merror or mlogloss for multi-class classification解决：参数配置问题，sklearn接口下的xgboost时，配置更改如下：objective='multi:softprob', num_class=3,eval_metric...

2020-03-27 19:56:45 1268

原创面试准备——概率题/智力题

一根棒子分成三段组成三角形的概率

2020-03-27 19:50:53 3119

原创机器学习中的归一化和python计算

如何解决样本不均衡的问题一、数据不平衡　　在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时，大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀，都会存在“长尾现象”，也就是所谓的“二八原理”。如何解决过拟合参考网址：如何解决样本不均衡的问题怎样解决样本不平衡问题？聊一聊深度学习中的样本不平衡问题何恺明大神的「F...

2020-02-12 14:29:32 882

原创 python正则表达式及常用匹配

6个及6个以上的阿拉伯数字连续出现：re.findall('\d{6,}',line)匹配时间，冒号前面是一到两位的数字，后面是两位数字：（注意防止08:345、102:30这种情况出现，并考虑全角和半角冒号）re.findall('\D([0-9]|0[0-9]|1[0-9]|2[0-3]):[0-5][0-9]\D', '。'+line+'。')re.findall('\D([0-...

2020-02-12 14:15:48 1310

原创 LeetCode总结——从2Sum、3Sum、3Sum Closest、4Sum到kSum

leetcode求和问题描述(K sum problem)：给你一组N个数字(nums), 然后给你一个常数(target) ，我们的目标是在这一堆数里面找到K个数字，使得这K个数字的和等于target。注意事项(constraints):注意这一组数字可能有重复项：比如 1 1 2 3 , 求3sum, 然后 target = 6, 你搜的时候可能会得到两组1 2 3, 1 2 3，1...

2020-02-12 11:42:34 365

原创面试准备——python知识

一、range和xrange的用法和区别二、深拷贝和浅拷贝copy.copy 浅拷贝只拷贝父对象，不会拷贝对象的内部的子对象。copy.deepcopy 深拷贝拷贝对象及其子对象三、python数据结构3.1 怎样去除list中的重复元素使用set或者dict...

2019-12-31 11:59:55 357

原创论文笔记：Attention is All You Need

一步步解析Attention is All You Need！

2019-12-31 11:43:34 772

原创五大经典算法（贪婪、动态规划、分治、回溯、分支限界法）及其联系和比较

一、贪心法贪心算法的定义：贪心算法（也叫贪婪算法）是指在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，只做出在某种意义上的局部最优解。贪心算法不是对所有问题都能得到全局最优解，得到的是局部最优解，关键是贪心策略的选择，不同的贪婪策略会导致得到差异非常大的结果。选择的贪心策略必须具备无后效性，即某个状态以前的过程不会影响以后的状态，只与当前状态有关。解题的一般...

2019-11-27 20:28:55 22251

原创 python中命令行工具模块argparse的使用

跑机器学习或深度学习实验的时候经常需要调各种参数，当把代码部署到服务器上时，如果直接在代码中改参数的大小，非常不方便，如果用argparse模块通过命令行传递参数到程序中，会使代码更方便简洁有序。argparse是python用于解析命令行参数和选项的标准模块，类似于linux中的ls指令，后面可以跟着不同的参数选项以实现不同的功能，argparse就可以解析命令行然后执行相应的操作。argp...

2019-11-25 20:49:43 831

原创 bert今生前世全总结

一、Bert简介谷歌AI实验室的BERT深刻影响了NLP的格局。BERT之后，许多NLP架构、训练方法与语言模型如雨后春笋般涌现，比如谷歌的TransformerXL、OpenAI’s GPT-2、 XLNet、ERNIE2.0、 RoBERTa等。BERT团队对该框架的描述：BERT全称Bidirectional Encoder Representations from Transfor...

2019-11-25 12:14:54 1427

原创论文笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding前言Google在2018年10月发表的一篇文章。AbstractBERT 表示来自 Transformer 的双向编码器表示（Bidirectional Encoder Representations from Tra...

2019-11-21 20:03:33 1727

原创论文笔记：Focal Loss for Dense Object Detection

论文链接: https://arxiv.org/pdf/1708.02002.pdf本篇论文是何恺明及其团队17年发表在ICCV上的paper。最初用于目标检测，因为解决了分类中类别不平衡的问题，nlp中也有应用。下面是各部分的要点，并非全文翻译。Abstract目前最高精度的目标检测器是基于由R-CNN推广的 two-stage 方法，其中分类器应用于稀疏的候选对象位置集。相比之下，...

2019-11-20 20:38:14 896

win10系统RNDIS驱动

pcDuino通过VNC连接win10时usb rndis驱动配置，下载解压后以管理员身份运行第五个cmd文件

2017-10-17

中文停用词表（共2694个）

“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“及网上各种资源整理去重后得到，包括一些数字及字符

2017-03-01

pcDuino通过VNC连win10电脑时RNDIS驱动

win10下usb rndis驱动会默认识别为com口，需要手动更新驱动。先下载kindle_rndis.inf_amd64-v1.0.0.1，然后以管理员身份运行第五个cmd文件，然后在设备管理器里的USB串口识别出的COM口处双击，在计算机中查找驱动程序，即下载解压后的那个文件夹，然后网络适配器中就有RNDIS驱动了。

2017-10-17

Coursera斯坦福机器学习编程作业全集1-11周

Coursera斯坦福机器学习编程作业全集1-11周共8个编程作业，均测试提交满分通过

2017-03-04

基于ELMo词向量的textCNN中文文本分类python代码

基于ELMo词向量的textCNN中文文本分类python代码，ELMo是基于哈工大的HIT-SCIR/ELMoForManyLangs，文本分类代码是基于keras的，有数据有模型有代码。

2020-06-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

python2.7;numpy1.8;64bit;

2016-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人