自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

码python的Vinsmoke

在博客中分享一些学习python中的笔记和有趣的东西,初入菜j一枚,欢迎批评指正

  • 博客(75)
  • 资源 (4)
  • 收藏
  • 关注

原创 docker基础

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2022-01-27 19:57:45 376

原创 牛客-困难及极难难度python

1 字符串最后一个单词的长度计算字符串最后一个单词的长度,单词以空格隔开,字符串长度小于5000。def get_length(): input_str = input() str_list = input_str.strip().split() if len(str_list) == 0 or len(str_list) > 5000: return '请重新输入' else: return len(str_li

2021-07-31 11:29:49 549

原创 牛客-中等及基础难度python

5进制转换写出一个程序,接受一个十六进制的数,输出该数值的十进制表示。# coding = utf-8 def main(nums): # 16进制对照字典 num_dict = {'0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9,'A':10,'B':11,'C':12,'D':13,'E':14,'F':15} n = len(nums) res = 0 for i in range

2021-07-31 11:29:28 1631

原创 selenium和requests实现12306登录及余票查询

1.12306首页url:https://www.12306.cn/index/index.html用到的包类from selenium import webdriverfrom selenium.webdriver import ActionChains # 用于控制鼠标滑动from chaojiying import Chaojiying_Client # 超级鹰验证码识别import base64import reimport timeimport config # 账号密

2021-07-04 13:55:12 1105

原创 爬虫(三)-笔记

scrapy的概念和流程1. scrapy的概念Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。Scrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html2. scrapy框架的作用少量的代码,就能够快速的抓取3. scrapy的工作流程3.1

2021-06-30 20:18:44 2511

原创 爬虫(二)-笔记

常见的反爬手段和解决思路1 服务器反爬的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫)。三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网站,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文,就是这么个节奏。公司可免费查询的资源被批量抓走,丧失竞争力,

2021-06-17 22:28:23 968

原创 爬虫(一)-笔记

爬虫概述1. 爬虫的概念模拟浏览器,发送请求,获取响应网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做爬虫也只能获取客户端(浏览器)所展示出来的数据2. 爬虫的作用爬虫在互联网世界中有很多的作用,比如:数据采集抓取微博评论(机器学习舆情监控)抓取招聘网站的招聘信息(数据分析、挖掘)新浪滚动新闻百度新闻网站软件

2021-06-02 22:33:51 2100

原创 leetcode刷题记录50-100-基于python

51. N 皇后-Hardclass Solution: def solveNQueens(self, n: int) -> List[List[str]]: self.res = [] trans = lambda path : ['.' * i + 'Q' + '.'*(len(path) - 1 - i) for i in path] def recursion(n, path, pos): if len(pat

2021-05-06 19:57:18 314

原创 leetcode刷题记录1-50-基于python

1.两数之和-Easyclass Solution(): def twoSum(self, nums, target): # nums: list->int # target: 两数之和 # 遍历数组每一个元素 for i in nums: # 计算另一个数 j = target - i # 记录下开始索引 start_index = nums.index(i) # 将i后面的数存放在一个临时list,防止出现6 = 3+3 temp = nu

2021-05-06 19:56:50 590 2

原创 Seq2Seq聊天机器人

Seq2Seq聊天机器人基本逻辑实现config.pyimport pickle import torchdevice = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')"""word2sequence"""chatbot_train_batch_size = 200chatbot_test_batch_size = 300input_ws = pickle.load(open('./model/ws_

2020-11-30 20:16:19 844 3

原创 NLP-HMM模型、维特比算法、Baum-Welch算法

马尔科夫链在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概念。马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名。1 简介马尔科夫链即为状态空间中从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆.

2020-11-17 21:12:35 1741 4

原创 NLP-EM算法

初识EM算法EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expectation-Maximization Algorithm)。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等...

2020-11-17 19:13:54 577 1

原创 NLP-朴素贝叶斯

朴素贝叶斯算法简介 </section> </div> </div> <section class="normal" id="section-"> &...

2020-11-16 23:27:39 768

原创 NLP在线医生(三)

7.1 在线部分简要分析学习目标:了解在线部分的核心组成.了解各个核心组成部分的作用.在线部分架构图:在线部分简要分析:根据架构图,在线部分的核心由三个服务组成,分别是werobot服务,主要逻辑服务,句子相关模型服务. 这三个服务贯穿连接整个在线部分的各个模块.werobot服务作用:用于连接微信客户端与后端服务, 向主要逻辑服务发送用户请求,并接收结构返回给用户.主要逻辑服务作用:用于处理核心业务逻辑, 包括会话管理,请求句子相关模型

2020-11-16 21:05:54 1899 6

原创 NLP在线医生-BiLSTM+CRF命名实体识别(二)

6.1 命名实体识别介绍学习目标:了解什么是命名实体识别了解命名实体识别的作用了解命名实体识别常用方法了解医学文本特征什么是命名实体识别:命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。是信息提取, 问答系统, 句法分析, 机器翻译等应用领域的重要基础工具, 在自然语言处理技术走向实用化的过程中占有重要地位. 包含行业, 领域专有名词, 如人名, 地名, 公司名, 机构名, 日期, 时间,

2020-11-14 23:43:45 7435 16

原创 NLP在线医生(一)

1.1 背景介绍学习目标:了解智能对话系统的相关背景知识.掌握使用Unit对话API.什么是智能对话系统?随着人工智能技术的发展, 聊天机器人, 语音助手等应用在生活中随处可见, 比如百度的小度, 阿里的小蜜, 微软的小冰等等. 其目的在于通过人工智能技术让机器像人类一样能够进行智能回复, 解决现实中的各种问题.从处理问题的角度来区分, 智能对话系统可分为:任务导向型: 完成具有明确指向性的任务, 比如预定酒店咨询, 在线问诊等等.非任务导向型: 没有明确目

2020-11-09 23:13:43 3581 1

原创 莎士比亚风格的文本生成任务

莎士比亚风格的文本生成任务 学习目标¶了解文本生成任务和相关数据集.掌握使用GRU模型实现文本生成任务的过程.任务说明¶这是一项使用GRU模型的文本生成任务,文本生成任务是NLP领域最具有挑战性的任务之一,我们将以一段文本或字符为输入,使用模型预测之后可能出现的文本内容,我们希望这些文本内容符合语法并能保持语义连贯性。但是到目前为止,这是一项艰巨的任务,因此从实用角度出发,更多的尝试在与艺术类文本相关的任务中,如我们的当前案例,就是使用莎士比亚的剧本作为原始数据。数据集...

2020-11-07 18:09:38 1768

原创 BERT,Transformer的模型架构与详解

BERT,Transformer的模型架构与详解 1.1 认识BERT学习目标了解什么是BERT.掌握BERT的架构.掌握BERT的预训练任务.什么是BERTBERT是2018年10月由Google AI研究院提出的一种预训练模型.BERT的全称是Bidirectional Encoder Representation from Transformers.BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, 并且在11种不同..

2020-11-06 22:31:33 6556 1

原创 迁移学习

迁移学习 2.1 迁移学习理论学习目标了解迁移学习中的有关概念.掌握迁移学习的两种迁移方式.迁移学习中的有关概念:预训练模型微调微调脚本预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型. 在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,...

2020-11-06 21:43:14 3535 1

原创 fasttext文本分类、训练词向量、词向量迁移

fasttext工具的使用 1.1 认识fasttext工具学习目标了解fasttext工具的作用.了解fasttext工具的优势及其原因.掌握fasttext的安装方法.作为NLP工程领域常用的工具包, fasttext有两大作用:进行文本分类训练词向量fasttext工具包的优势:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:fasttext工具包中内含的fast...

2020-11-05 20:53:48 4333 5

原创 使用Transformer构建语言模型

Transformer经典案例 3.1 使用Transformer构建语言模型学习目标 了解有关语言模型的知识.掌握使用Transformer构建语言模型的实现过程.什么是语言模型:以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型. # 语言模型的训练语料一般来自于文章,对应的源文本和目标文本形如:src1 = "I can do" tgt1 = "can do it"src2 = "can do it".

2020-11-04 20:43:17 2256

原创 Transformer介绍及架构解析

第一章:Transformer背景介绍 1.1 Transformer的诞生2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!论文地址: https://arxiv.org/pdf/1810.04805.pdf而在BERT中发挥重要作用的结构就是Transformer..

2020-11-03 22:55:27 3214 8

原创 seq2seq模型架构实现英译法任务

2.2 使用seq2seq模型架构实现英译法任务学习目标:更深一步了解seq2seq模型架构和翻译数据集.掌握使用基于GRU的seq2seq模型架构实现翻译的过程.掌握Attention机制在解码器端的实现过程.seq2seq模型架构:seq2seq模型架构分析:从图中可知, seq2seq模型架构, 包括两部分分别是encoder(编码器)和decoder(解码器), 编码器和解码器的内部实现都使用了GRU模型, 这里它要完成的是一个中文到英文的翻译: 欢迎 来 北京 -

2020-10-31 23:57:54 1573

原创 使用RNN模型构建人名分类器

2. RNN经典案例 2.1 使用RNN模型构建人名分类器学习目标:了解有关人名分类问题和有关数据.掌握使用RNN构建人名分类器实现过程.关于人名分类问题:以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等.人名分类数据:数据下载地址: https://downlo...

2020-10-31 16:11:41 4151 14

原创 RNN, LSTM, GRU模型的作用, 构建, 优劣势比较,attention机制

1. RNN架构解析1.1 认识RNN模型学习目标了解什么是RNN模型.了解RNN模型的作用.了解RNN模型的分类.什么是RNN模型RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产..

2020-10-29 22:48:14 22396 7

原创 HMM与CRF

HMM与CRF 认识HMM与CRF模型学习目标了解HMM与CRF模型的输入和输出.了解HMM与CRF模型的作用.了解HMM与CRF模型的使用过程.了解HMM与CRF模型之间的差异.了解HMM和CRF的发展现状.HMM模型的输入和输出HMM(Hidden Markov Model), 中文称作隐含马尔科夫模型, 因俄国数学家马尔可夫而得名. 它一般以文本序列数据为输入, 以该序列对应的隐含序列为输出.什么是隐含序列:序列数据中每个单元包含的隐性信息, 这些隐性信息...

2020-10-29 19:00:29 489

原创 新闻主题分类任务

新闻主题分类任务 2.1 新闻主题分类任务学习目标了解有关新闻主题分类和有关数据.掌握使用浅层网络构建新闻主题分类器的实现过程.关于新闻主题分类任务:以一段新闻报道中的文本描述内容为输入, 使用模型帮助我们判断它最有可能属于哪一种类型的新闻, 这是典型的文本分类问题, 我们这里假定每种类型是互斥的, 即文本描述有且只有一种类型.新闻主题分类数据:通过torchtext获取数据:# 导入相关的torch工具包import torchimport torc...

2020-10-29 00:03:14 1585

原创 NLP学习笔记-Pytorch框架(补充)

PDFPytorch初步应用 使用Pytorch构建一个神经网络学习目标掌握用Pytorch构建神经网络的基本流程.掌握用Pytorch构建神经网络的实现过程.关于torch.nn:使用Pytorch来构建神经网络, 主要的工具都在torch.nn包中.nn依赖于autograd来定义模型, 并对其自动求导.构建神经网络的典型流程:定义一个拥有可学习参数的神经网络遍历训练数据集处理输入数据使其流经神经网络计算损失值将网络参数的梯度进行反向传播以一定的.

2020-10-27 19:05:20 460

原创 B站【1espresso】NLP - transform、bert、HMM、NER课件

git地址传送门传送门2(含bert情感分析)仅学习使用,侵删中文自然语言处理Transformer模型(一)transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型. 现在已经取得了大范围的应用和扩展, 而BERT就是从transformer中衍生出来的预训练语言模型.目前transformer模型已经得到广泛认可和应用, 而应用的方式主要是先进行预训练语言模型, 然后把预训练的模型适配给下游任务, 以完成各种.

2020-10-27 00:32:56 1319 2

原创 生成对抗神经网络 - GAN

原理解析损失函数import torchfrom torch import autogradinput = autograd.Variable(torch.tensor([[ 1.9072, 1.1079, 1.4906], [-0.6584, -0.0512, 0.7608], [-0.0614, 0.6583, 0.1095]]), requires_grad=True)print(input)print('-'*100)from torch

2020-10-25 17:55:53 248

原创 基于pytorch的文本分类

目录结构text│ run.py│ train_eval.py│ utils.py│ utils_fasttext.py│├─models│ │ TextCNN.py│ │ TextRNN.py│ ││ └─__pycache__│ TextCNN.cpython-36.pyc│ TextRNN.cpython-36.pyc│├─THUCNews│ ├─data│ │ class.txt│ │

2020-10-25 03:09:22 2255

原创 Mnist分类任务

Mnist分类任务:网络基本构建与训练方法,常用函数解析torch.nn.functional模块nn.Module模块读取Mnist数据集会自动进行下载%matplotlib inlinefrom pathlib import Pathimport requestsDATA_PATH = Path("data")PATH = DATA_PATH / "mnist"PATH.mkdir(parents=True, exist_ok=True)URL = "

2020-10-22 01:39:31 797

原创 基于pytorch 构建神经网络进行气温预测

import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport torchimport warningswarnings.filterwarnings('ignore')%matplotlib inlinepath = 'E:/nlp课件/test_data/temps.csv'features = pd.read_csv(path)features.head()

2020-10-21 23:14:15 2159 14

原创 PyTorch Hub

GITHUB:https://github.com/pytorch/hub模型:https://pytorch.org/hub/research-modelsFacebook官方博客表示,PyTorch Hub是一个简易API和工作流程,为复现研究提供了基本构建模块,包含预训练模型库。并且,PyTorch Hub还支持Colab,能与论文代码结合网站Papers With Code集成,用于更广泛的研究。发布首日已有18个模型“入驻”,获得英伟达官方力挺。而且Facebook还鼓励论文发布者把自己的模

2020-10-21 21:44:35 501

原创 NLP学习笔记-QA机器人(七)

问答机器人介绍1. 问答机器人在前面的课程中,我们已经对问答机器人介绍过,这里的问答机器人是我们在分类之后,对特定问题进行回答的一种机器人。至于回答的问题的类型,取决于我们的语料。当前我们需要实现的问答机器人是一个回答编程语言(比如python是什么,python难么等)相关问题的机器人2. 问答机器人的实现逻辑主要实现逻辑:从现有的问答对中,选择出和问题最相似的问题,并且获取其相似度(一个数值),如果相似度大于阈值,则返回这个最相似的问题对应的答案问答机器人的实现可以大致分为三步步骤:对问

2020-09-22 15:30:13 2147 10

原创 NLP学习笔记-Seq2Seq实现聊天机器人(六)

Seq2Seq实现闲聊机器人1. 准备训练数据单轮次的聊天数据非常不好获取,所以这里我们从github上使用一些开放的数据集来训练我们的闲聊模型数据地址:https://github.com/codemayq/chaotbot_corpus_Chinese主要的数据有两个:小黄鸡的聊天语料:噪声很大微博的标题和评论:质量相对较高2. 数据的处理和保存由于数据中存到大量的噪声,可以对其进行基础的处理,然后分别把input和target使用两个文件保存,即input中的第N行尾

2020-09-20 14:51:54 1621 8

原创 NLP学习笔记-隐马尔可夫(HMM)、最大熵马尔科夫模型(MEMM)、条件随机场(CRF)、最大匹配法(八)

隐马尔可夫1. 自动机自动机:(又称为 有限自动机,有限状态自动机,FSA)是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。例如:我们常用的正则表达式就是一种用来描述字符串出现字符的自动机。假如我们有正则表达式:baa+!,表示的是ba后面有1个或这多个a,最后是一个感叹号。我们可以把上述的自动机用图来展示,如下:自动机从初始状态q0开始,反复进行下面的过程:找到第一个字母b,如果找到b那么进入到下一个状态,再去寻找下一个状态需要的字母,指导进行接收状态q4。我们可以使用状

2020-09-19 00:26:23 1126

原创 NLP学习笔记-Seq2Seq模型(五)

闲聊机器人的介绍介绍在项目准备阶段我们知道,用户说了一句话后,会判断其意图,如果是想进行闲聊,那么就会调用闲聊模型返回结果,这是我们会在项目中实现的功能。目前市面上的常见闲聊机器人有微软小冰这种类型的模型,很久之前还有小黄鸡这种体验更差的模型常见的闲聊模型都是一种seq2seq的结构,在后面的课程中我们会学习并使用seq2seq来实现我们的闲聊机器人Seq2Seq模型的原理1. Seq2Seq的介绍Sequence to sequence (seq2seq)是由encoder(编码器)和de

2020-09-15 23:04:33 1268 2

原创 NLP学习笔记-FastText文本分类(四)

分类的目的和分类的方法1. 文本分类的目的回顾之前的流程,我们可以发现文本分类的目的就是为了进行意图识别在当前我们的项目的下,我们只有两种意图需要被识别出来,所以对应的是2分类的问题可以想象,如果我们的聊天机器人有多个功能,那么我们需要分类的类别就有多个,这样就是一个多分类的问题。例如,如果希望聊天机器人能够播报当前的时间,那么我们就需要准备关于询问时间的语料,同时其目标值就是一个新的类别。在训练后,通过这个新的模型,判断出用户询问的是当前的时间这个类别,那么就返回当前的时间。同理,如果还希望聊天

2020-09-13 17:48:45 1346 7

原创 NLP学习笔记-聊天机器人项目准备(三)

走进聊天机器人1. 目前企业中的常见的聊天机器人QA BOT(问答机器人):回答问题代表 :智能客服、比如:提问和回答TASK BOT (任务机器人):帮助人们做事情代表:siri比如:设置明天早上9点的闹钟CHAT BOT(聊天机器人):通用、开放聊天代表:微软小冰2. 常见的聊天机器人怎么实现的2.1 问答机器人的常见实现手段信息检索、搜索 (简单,效果一般,对数据问答对的要求高)关键词:tfidf、SVM、朴素贝叶斯、RNN、CNN知识图谱(相

2020-09-12 23:19:07 1869 4

python全栈笔记.zip

本人近半年自学python 方面全套的学习笔记。人生苦短,我用python。包含web、前端、django、flask、机器学习、深度学习、数据分析,还有常用如mysql、redis数据库相关材料

2020-04-19

python机器学习笔记.zip

本人近半年自学python 方面全套的学习笔记。人生苦短,我用python。包含web、前端、django、flask、机器学习、深度学习、数据分析,还有常用如mysql、redis数据库相关材料

2020-04-19

python数据分析笔记.zip

本人近半年自学python 方面全套的学习笔记。人生苦短,我用python。包含web、前端、django、flask、机器学习、深度学习、数据分析,还有常用如mysql、redis数据库相关材料

2020-04-19

python基础.zip

本人近半年自学python 方面全套的学习笔记。人生苦短,我用python。包含web、前端、django、flask、机器学习、深度学习、数据分析,还有常用如mysql、redis数据库相关材料

2020-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除