2020年07月_stay_foolish12

原创 pip加速+百度镜像|清华镜像

针对pip install 安装包下载慢的问题，主要pip install直接安装是从国外拉取安装包。解决办法，加国内镜像，比如百度 https://mirror.baidu.com/pypi/simplepip install lac -i https://mirror.baidu.com/pypi/simple比如清华镜像：https://pypi.tuna.tsinghua.edu.cn/simplepip install numpy -i https://pypi.tuna

2020-07-21 11:21:23 13972 1

原创文本相似度、文本匹配、文本聚类

1 1在Keras的Embedding层中使用预训练的word2vec词向量：https://blog.csdn.net/u012052268/article/details/90238282本文的部分工作、代码、数据共享到gethub网站《使用多层级注意力机制和keras实现问题分类》：https://github.com/xqtbox/question-classification-with-multi-level-attention-mechanism-and-keras2 QA match/文

2020-07-20 15:21:09 1924

原创机器学习项目（四）疫情期间网民情绪识别

机器学习项目（四）疫情期间网民情绪识别（一）：https://blog.csdn.net/qq_33357094/article/details/105148198?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFro

2020-07-30 21:16:48 1677

原创预训练模型应用工具 PaddleHub情感分析、对话情绪识别文本相似度

文章目录1. 预训练模型的应用背景1.1 多任务学习与迁移学习1.2 自监督学习2. 快速使用PaddleHub2.1 通过Python代码调用方式使用PaddleHub2.1.1 CV任务原图展示人像扣图人体部位分割人脸检测关键点检测2.1....

2020-07-30 20:56:31 2223

原创 Python 实现图片轮播及音乐循环播放

# -*- coding: utf-8 -*-"""Created on 2019/8/20@author: eln@requirements: PyCharm 2017.2; Python 3.5.6 |Anaconda 4.1.1 (64-bit)@decription: 用 Python 制作一个电子相册"""# pip install pillow pygame mutagenimport osimport sysimport threadingimport tkint

2020-07-24 16:37:42 2264

原创 python实现批量图片/文件重命名

python实现批量图片/文件重命名import osclass BatchRename(): ''' 批量重命名文件夹中的图片文件 ''' def __init__(self): self.path = 'D:/nlpPredict/SentenceSimilarity/daj' # 表示需要命名处理的文件夹 def rename(self): filelist = os.listdir(self.path) # 获

2020-07-24 15:59:56 1242

原创中文情感分析语料库大全-带下载地址

中文情感分析语料库大全-带下载地址

2020-07-24 11:09:50 3298 1

原创基于 CNN 的中文对话情感分析

基于 CNN 的中文对话情感分析：https://www.jianshu.com/p/87ca0616f1a4

2020-07-24 10:51:10 1428

原创对话中情绪识别，研究挑战、数据集和前沿方法

对话中情绪识别，研究挑战、数据集和前沿方法：https://zhuanlan.zhihu.com/p/86777515

2020-07-23 17:36:43 576

转载一文读懂最强中文NLP预训练模型ERNIE

基于飞桨开源的持续学习的语义理解框架ERNIE 2.0，及基于此框架的ERNIE 2.0预训练模型，在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。本文带你进一步深入了解ERNIE的技术细节。一：ERNIE 简介1.1 简介Google 最近提出的 BERT 模型，通过随机屏蔽15%的字或者word，利用...

2020-07-23 14:49:55 1112

转载 Python 爬虫系列教程一爬取批量百度图片

很久之前就学习了Python的爬虫了，也用来做过一些项目（主要是一些课程项目），但时间比较紧，一直没有空把它写下来，这个暑假，我可能会逐渐更新Python爬虫的相关知识。项目1：实现批量爬取百度图片先简单的介绍下这个项目。当你需要下载大量图片的时候，或许你会去百度图片里一张张右键下载，但这样未免太麻烦了，有了这个工具，你直接运行下程...

2020-07-23 12:36:26 2269 1

原创安装paddlepaddle-GPU 报libcudnn.so和libcublas.so找不到的解决方案

第一步，查找两个的文件位置第二步：由于cudcun实在cuda10.0的基础上安装的，解压cudcnn的tar包之后会出现一个cuda-10.0文件夹，而不是cuda.第三步：在一步出现的位置找到了和libcublas.so.10对其进行了重命名就好了。...

2020-07-22 16:07:56 3534

转载 Linux服务器安装cuda,cudnn，显卡驱动和pytorch超详细流程

基本的环境首先了解自己服务器的操作系统内核版本等信息：查看自己操作系统的版本信息：cat /etc/issue或者是 cat /etc/lsb-rele...

2020-07-22 11:16:59 2214

转载 DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用+距离运算

在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。1. 背景以搜索引擎和搜索广告为例，最重要的也最难解决的问题是语义相似度，这里主要体现在两个方面：召回和排序。在召回时，传统的文本相似性如 BM25，无法有效发现语义类 query-Doc 结果对，如"...

2020-07-21 11:15:29 6878

原创 jieba.cut与jieba.lcut的区别

jieba.cut生成的是一个生成器，generator，也就是可以通过for循环来取里面的每一个词。word_list= [word for word in jieba.cut(text)]jieba.lcut 直接生成的就是一个listPrefix dict has been built succesfully. Full Model 我/来/北京/上学['我', '来', '北京', '上学']...

2020-07-20 16:23:14 9675 2

原创训练数据量中关于batch_size，iteration和epoch的概念

batch_size机器学习使用训练数据进行学习，针对训练数据计算损失函数的值，找出使该值尽可能小的参数。但当训练数据量非常大，这种情况下以全部数据为对象计算损失函数是不现实的。因此，我们从全部数据中选出一部分，作为全部数据的“近似”。神经网络的学习也是从训练数据中选出一批数据（称为 mini-batch，小批量），然后对每个mini-batch进行学习。比如，从60000个训练数据中随机选取100个数据，用这100个数据进行学习，这种学习方式成为 mini-batch 学习。用mini-batch的方

2020-07-16 16:37:50 3576 6

转载何使用BERT模型实现中文的文本分类

原文网址：https://blog.csdn.net/Real_Brilliant/article/details/84880528 如何使用BERT模型实现中文

2020-07-16 13:53:40 2846

原创程序员是这样解读《隐秘的角落》：用机器学习识别唇语，还原对话

程序员是这样解读《隐秘的角落》：https://xie.infoq.cn/article/f60d2a6cda281a40b97eecf4b唇语识别技术的开源教程，听不见声音我也能知道你说什么！：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/83745695

2020-07-10 16:46:44 535

转载短文本语义匹配/文本相似度框架(SimilarityNet, SimNet)，基于bow_pairwise模式及框架原理介绍

Hinge loss： https://blog.csdn.net/hustqb/article/details/78347713原文链接：https://blog.csdn.net/qq_33187136/article/details/106770431 短文本语义匹配/文本相似度框架(SimilarityNet, SimNet)，基于bow_pairwise模式及框架原理介绍

2020-07-10 11:34:50 4739 1

转载 2020国内互联网公司的开源项目及Github地址部分汇总

2020国内互联网公司的开源项目及Github地址部分汇总一、Alibaba 阿里巴巴阿里巴巴的开源项目很多，都说国内Java公司的技术架构大部分来自阿里系，而且还有很多重量级的项目，例如LVS、Tengine，或者很有实践价值的中间件，例如 MetaQ(分布式消息系统)、dubbo(RPC框架)、cobar(数据库中间件)，这一点值得为阿里巴巴的开源精神点赞！1、Ant Designhttps://github.com/ant-design2、Ant DataVis Team（蚂蚁金服 - 体

2020-07-10 10:59:42 1557

原创《少年的你》短评情感分析——机器学习之逻辑回归

背景《少年的你》这部国产青春剧影响还是蛮大的，票房达到了14亿，从票房上看，这部电影在大陆制作的青春剧中比较成功，演员：易烊千玺+周冬雨，当然会引起一些流量效应，但是许多演员对这部电影的剧情、演员的演技评价颇好，包括自己的姐姐也非常喜欢；同时它也陷入了抄袭东野圭吾的《白夜行》和《嫌疑人X的献身》的热议，引起许多原著粉丝的不满。下面就利用逻辑回归（LogisticRegression）对《少年的你》的一些短评进行情感分析，看一看已经观影的人对这部电影的评价如何。获取数据数据是从豆瓣电影——《少年的你》.

2020-07-09 19:44:53 455

转载基于百度开源项目LAC实现文本分词、词性标注和命名实体识别

文本分词、词性标注和命名实体识别都是自然语言处理领域里面很基础的任务，他们的精度决定了下游任务的精度，今天在查资料的时候无意间发现了一个很好玩的开源项目，具体查了一下才知道这是百度开源的一个主要用于词性标注和命名实体识别的项目，决定拿来尝试一下。首先是项目环境的配置安装，当前已经支持一键式安装了，具体命令如下...

2020-07-09 15:12:39 3216 2

原创安装tensorflow出现超时，找不到指定模+python 各个指定版本安装

安装tensorflow出现超时，找不到指定模块https://www.jianshu.com/p/b886fd6db895

2020-07-07 16:18:41 181

转载最全目标检测相关资料整理 (目标检测+数据增强+卷价神经网络+类别不均衡...)

1 小目标检测：综述：综述论文Augmentation for small object detection深度学习笔记（十）Augmentation for small object detection（翻译）吴建明wujianning：小目标检测的增强算法机器之心：什么是小样本学习？这篇综述文章用166篇参考文献告诉你答案 2 目标检测论文追踪：https://github.com/amusi/awesome-object-detection 综述文章：1） Object Detection in

2020-07-07 10:02:38 597

原创 lambda函数+map函数的结合使用 list(map(lambda x: list(x)[0], X))

Q1：什么是lambda函数？怎么定义？有什么作用？知识点：lambda解析：lambda叫做匿名函数，是一种不需要提前对函数进行定义再使用的情况下就可以使用的函数1定义规则：冒号的左边是原函数的参数，右边是原函数的返回值。# 常规定义，需要提前定义函数>>> def func(x):... return x+1... >>> func(1)2>>> # 使用lambda表达式，一步实现。# 冒号左边是原函数参数

2020-07-06 15:55:45 24572 1

原创 Python 文件操作中的读写模式:open(path, ‘-模式-‘,encoding=‘UTF-8‘)+python读写文件txt +文本数据预处理

python读写txt文件文件的打开的两种方式 f = open("data.txt","r") #设置文件对象f.close() #关闭文件#为了方便，避免忘记close掉这个文件对象，可以用下面这种方式替代with open('data.txt',"r") as f: #设置文件对象 str = f.read() #可以是随便对文件的操作一、读文件 1.简单的将文件读取到字符串中 f = open("data.txt","r") #设置文件对

2020-07-06 15:17:44 7443

原创【NLP-NER】命名实体识别

NLP-NER】命名实体识别：https://zhuanlan.zhihu.com/p/88544122

2020-07-06 11:03:35 233

原创用flask部署模型

模型部署：用flask部署模型1.https://zhuanlan.zhihu.com/p/358798352.https://blog.keras.io/building-a-simple-keras-deep-learning-rest-api.html

2020-07-06 10:57:46 892

转载量化投资交易 vn.py

前言：当初接触到vnpy，一开始当然是按照该项目在GitHub上的指南，开始安装，配置，阅读Wiki，但是作为一个python新手，并不能马上利用vnpy来写策略回测甚至实盘。所以我决定还是从源码看起，一点一点摸透整个框架的细节。虽然看源代码对于一个python初学者真的很困难，特别是期间得了干眼症，看显示器那叫一个难受，但还是坚持下来。看了一遍之后，把自己对vnpy的一些理解发上来，一来，希望和大家多交流，毕竟自己编程方面不是高手，肯定有理解的不对的地方，希望大家指正，二来再阅读一次代码，看看之前有没有遗

2020-07-03 10:30:01 1690

原创 Pandas DataFrame数据的增、删、改、查

Pandas DataFrame数据的增、删、改、查https://blog.csdn.net/zhangchuang601/article/details/79583551?depth_1-

2020-07-01 15:43:56 615

原创 mysql匹配字符

1.正确的方式：判断字段field_A中是否包含23:select * from table_test where FIND_IN_SET("23", field_A) ;2.错误的方式：select * form table_test where field_A like "%23%"*****3.案例分析：field_A字段：[5,123,223][230,232,233][5,23,1]若想查询field_A字段中含有字符串23的记录，而不包含123，231等记录的话，只能通

2020-07-01 10:00:14 406

古月哲亭