自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 NLP CNN

CNN 卷积神经网络为什么CNN常用于图像处理:局部性平移性可缩性CNN简易图局部性与平移性会在卷积层得到体现。可缩性会在池化层得到体现。CNN-卷积层(参数,不同维度下的特征提取)卷积核的通道数和输入数据的通道数一致,卷积核个数等于输出通道数CNN-池化层摊平(Flatten)在test-CNN中卷积核宽度是与词向量的维度一致用卷积核进行卷积时,不仅考虑了词义而且考虑了词序及上下文CNN实现MNISTimport torchimport torch.n

2021-05-08 14:19:15 173

原创 NLP 神经网络初步

神经元激活函数1. sigmoid函数缺陷:梯度消失偏执现象:输出均大于0,使得输出均值不是0tanh函数relu函数优势:计算简单单边的输出特性和生物学意义上的神经元阈值机制相似当x>0时,梯度不变,解决了sigmoid以及tanh常见的梯度消失问题一般用于多层感知机以及卷积神经网络,在循环神经网络中并不常见损失函数回归问题1.MSE 均方误差2. RMSE 均方根误差3. MAE 平均绝对误差分类问题交叉熵CNN 卷积神经网络为

2021-05-08 14:18:32 159

原创 NLP 数据不平衡问题

数据不平衡指的是不同类别的样本差异非常大,或者少数样本代表了业务的关键数据,需要对少量样本的模式有很好的下也许。其中分布不均衡分为两种:大数据分布不均衡:数据规模较大,某类别样本占比较小。小数据分布不均衡:整体数据规模较小,某类别的样本数量也少。三种解决方式1.欠采样在少量样本数量不影响模型训练的情况下,可以通过对多数样本欠采样,实现少数样本和多数样本的平衡。(减少多数样本的样本量)1.1 随即删除1.2 原型生成(PG算法)2.过采样在少量样本数量不支撑模型训练的情况下,可以通过

2021-03-30 15:26:19 518

原创 NLP 模型验证

混淆矩阵准确率召回率 精确率召回率:在所有正样本中,被预测为正样本的个数精确率:在预测为正样本中,真正的正样本F1-score

2021-03-24 14:32:39 245

原创 NLP 预处理

1. 过滤词过滤停用词,出现频率很低的词。2. one way to normalize (English)Stemming合并后的单词不一定是有效的单词。went,go,going --> gofly,flies --> flideny,denied,denying --> denifast,faster,fastest -->fast3.单词转换为向量例词典:【我们,去,爬山,今天,你们,昨天,跑步】独热编码(one-hot):向量大小是词库的大小

2021-03-15 19:26:48 98

原创 NLP 语言模型

Chain Rulep(A,B,C,D) = p(A)*p(B|A)*p(C|AB)*p(D|ABC)Markov AssumptionUnigram (一阶)Bigram (二阶)可扩展至N阶语言模型的评价理想情况下假设有两个语言模型A,B选定特定的任务,比如拼写纠错把两个模型A,B都应用在此任务中比较准确率,判断A,B表现模型评价:Perplexityx:average log likelihoodLaplace Smoothing为了避免单个概率为0,使整

2021-03-15 15:39:58 80

原创 NLP 常用技术

动态规划

2021-03-13 16:12:53 215

原创 NLP 基础/paper

NLP的基础任务分词词性标注(POS)命名实体识别(NER)句法分析(Synatatic Analysis)语义分析(Semantic Analysis)paper reading and search论文检索Google学术DBLP: link微软学术:link文献选择文献阅读顺序...

2021-03-12 17:24:05 92

原创 python全栈 类/对象

类# 类名推荐用驼峰命名# 类体代码在定义时就会运行,在实例化时只自动运行__init__# 类中存放的是对象共有的数据和功能,访问地址都一样class Student(): # 记录有多少实例化对象 count = 0 # __init__内存放是为对象初始化属性的功能,但是可以存放任意代码 # 想要在类调用时就立刻执行的代码。 def __init__(self,stu_name,stu_age,stu_gender,stu_school='abcsch

2021-03-10 13:32:24 44

原创 Web前端 JavaScript入门

文章目录JavaScript和html的结合方式第一种方式第二种方式变量变量类型变量中的特殊值定义变量的格式补充关系运算逻辑运算&&:且运算||:或运算!:取反运算JavaScript和html的结合方式第一种方式在head标签中,或者在body标签中,使用script标签来书写JavaScript代码<script type="text/javascript"> JS代码 </script>示例:<!DOCTYPE html>&lt

2021-03-02 17:08:41 60

原创 Web前端 CSS入门

这里写目录标题CSS介绍css语法规则CSS和HTML的结合方式第一种:在标签的style属性上设置第二种:在head标签中,使用style标签来定义css样式第三种:把css样式写成单独的css文件,用link标签引入标签名选择器id选择器类型选择器CSS介绍概念:用于控制网页样式并允许将样式信息与网页分离的一种标记性语言。css语法规则选择器{属性key :值value;}选择器:浏览器根据‘选择器’决定受CSS样式影响的HTML标签属性:想要改变的样式名,并且每个属性都有一个值。一般每

2021-03-01 19:38:19 151

原创 Web前端 html入门

html书写规范<!DOCTYPE html><!--约束声明--><html lang="en"><!--html标签标识html的开始 lang=‘zh_CN’表示中文 其中标签分为两部分head和body--><head><!--表示头部信息,一般包括三部分title标签,css样式,js代码--> <meta charset="UTF-8"><!--表示字符编码--> <tit

2021-02-27 17:50:27 290

原创 python全栈 零散小技巧

字符串f-stringjson在数据转换为json格式时,为了保持中文字符不乱码:应添加ensure_ascii=False

2021-02-26 15:09:14 39

原创 python全栈 项目的产生

一个项目如何从无到有一、需求分析1.拿到项目会先在客户那里一起讨论需求。商量项目功能,周期,价格。得到一个需求文档2.在内部需要开会讨论项目最终得到开发文档,交给不同岗位的人进行开发。二、程序架构设计三层构架1.把每个功能都分层三部分,逻辑清晰。2.如果用户更换不同的用户界面或不同的数据存储机制都不会影响接口层的核心逻辑代码,扩展性强。3.可以在接口层,准确的记录日志与流水。三、分任务开发四、测试五、上线...

2021-02-26 14:00:40 70

原创 python全栈 正则表达式/re模块

正则匹配规则特殊匹配符号示例\A : 以某字符串开头re.findall('\Aczz','czz1526alllxe') # ['czz']\Z : 以字符串结尾,只在单行适用re.findall('czz\Z','czz1526alllxeczz') # ['czz']一般情况下,用 ^ 来匹配开头,用 $ 来匹配结尾。不受行数限制。re.findall('^czz','czz1526alllxe') # ['czz']re.findall('czz$','czz1526alllx

2021-02-25 16:01:16 66

原创 python全栈 日志文件/logging模块

日志配置及logging模块日志基本配置import logging# 一:日志配置logging.basicConfig( # 1、日志输出位置:1、不指定,默认打印到终端 2、指定路径则打印到文件 # filename='access.log', # 2、日志格式 format='%(asctime)s - %(name)s - %(levelname)s -%(module)s: %(message)s', # 3、时间格式 datef

2021-02-25 15:05:36 99 1

原创 python爬虫 requests模块

requests模块功能:模拟浏览器发请求使用:指定url:发起请求:获取响应数据:持久化存储:简单示例import requests# 指定urlurl = 'https://cn.bing.com/'# 发起请求,返回一个响应对像response=requests.get(url=url)# 获取响应数据:text返回的是字符串类型的响应数据page_text = response.text# 持久化存储with open('./bing.html','w',encodi

2021-02-25 09:02:15 133

原创 python爬虫 http/https协议

HTTP协议概念:服务器与客户端数据交互的一种形式。常用请求头信息User-Agent:请求载体的身份标识Connection:请求成功后是保持链接/断开链接常用响应头信息content-type:服务器响应回客户端的数据类型HTTPS协议概念:安全的HTTP协议加密方式对称密钥加密:非对称密钥加密:证书认证加密:...

2021-02-24 12:46:25 87

原创 python全栈 logging日志模块

logging日志模块日志基本配置import logging# 一:日志配置logging.basicConfig( # 1、日志输出位置:1、终端 2、文件 # filename='access.log', # 不指定,默认打印到终端 # 2、日志格式 format='%(asctime)s - %(name)s - %(levelname)s -%(module)s: %(message)s', # 3、时间格式 datefmt='%Y-

2021-01-08 17:31:41 61

原创 python全栈 hash模块/subprocess模块(系统命令模块)

hashhash是一类的算法,该算法接受传入的内容,经过一系列运算得到一系列哈希值。hash值的特点1.传入内容一致,得到hash值必然一样2.不能反解出内容3.只要hash算法不变,无论校验内容有多大,得到的hash值长度固定hashlib模块import hashlib# 算法实例化(创建工厂)m = hashlib.md5()# 运送原材料,输入btype型m.update('hello'.encode('utf-8'))m.update('world'.encode('

2021-01-06 18:20:49 52

原创 python全栈 读取配置文件 configparser模块

configparser模块配置文件:test.iniimport configparser# 读取配置文件config = configparser.ConfigParser()config.read('test.ini')# 获取sectionsconfig.sections()# 获取optinonsconfig.options('sections1') # 得到列表,元素为key值# 获取itemsconfig.items('section1') # 得到 key,va

2021-01-06 14:27:25 53

原创 python全栈 序列化和反序列化 json/pickle

序列化的概念序列化:内存中的数据类型转换成特定格式的内容,该格式的内容可用于存储或者传输给其他的平台使用。反序列化:特定格式的内容转换成内存中的数据类型序列化的用途1.可用于存档2.传输给其他平台使用 -- 跨平台数据交互强调: 针对用途1的特定格式:一种专用的格式 -- pickle只有python可以识别 针对用途2的特定格式:一种通用的能够被所有的编程语言识别的格式 -- jsonJSON PYTHON 对应数据类型如何序列化和反序列化import json# 序列化

2021-01-05 16:36:34 62 1

原创 python全栈 打印进度条/shutil模块

打印细节-:左对齐 40:固定字符串长度'[%-40s]'%'#' # [# ]'[%-40s]'%'##' # [## ]模拟进度条/r:每次在行首打印import timeres = ''for i in range(50): res+='#' time.sleep(0.3) print('\r[%-50s

2020-12-28 15:17:21 1097 1

原创 python全栈笔记 time/random/os/sys模块

time模块时间的三种模式1.时间戳:主要用时间间隔计算time.time() # 1609132636.3088432.按照某种格式去显示: 2020-03-30 10:08:11 - 主要用于展示时间time.strftime('%Y-%m-%d %H:%M:%S %p') # 2020-12-28 13:17:41 PMtime.strftime('%Y-%m-%d %X') # 2020-12-28 13:17:413.结构化时间:获取时间的一部分time.localtime(

2020-12-28 13:25:44 63

原创 python全栈笔记 软件项目规范

bin : 放可执行文件,开始文件等。。conf : 配置文件db : 数据库相关的操作代码lib : 程序共享库core :核心代码逻辑(但是执行程序在bin文件夹下)setup.py : 安装 部署 打包的脚本requestment.txt : 环境配置需求# __file__ : 显示当前文件的绝对路径# os模块: os.path.dirname()获取文件的文件夹的绝对路径os.path.dirname(__file__) # 获取当前文件文件夹的绝对路径 BASE_DIR =

2020-12-28 13:14:31 66

原创 Python全栈笔记 匿名函数/包

函数调用函数调用方式:内存地址()匿名函数#匿名函数定义lambda x,y:x+y + x**y#调用(lambda x,y:x+y + x**y)(2,3)场景应用# 返回最大value值对应的keysalaries = { 'tencent':1000, 'bd':1500, 'zjtd':500}# max会迭代一个内容当作参数传入后面函数,函数的返回值key作为比较依据res1 = max(salaries,key=lambda x:salari

2020-12-28 13:10:15 87

原创 商业分析 数据收集-搜索渠道判断

根据数据特点,判断搜集渠道行业层面成熟或被监管行业: 监管或行业协会统计报告 权威数据库:wind/同花顺/彭博等权威数据库会收录主要行业的统计数据新兴行业或细分市场 咨询研究报告 专家访谈或消费者调研:特定行业研究会依赖专家或一首数据搜集公司层面上市公司 公司年报:上市公司主要经营数据和财务数据权威来源 招股说明书:对股东,市场精准,核心竞争力和发展战略有详细描述 券商分析报告:定期跟踪上市公司重要经营变动非上市公司: 公开网络新闻 专家访谈各渠道数据进行交叉验证原因

2020-12-24 12:22:52 581

原创 商业分析 问题分析框架

这里写自定义目录标题欢迎使用Markdown编辑`在这里插入代码片`器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑在这里插入代码片器你好! 这是你第一次使用 Markdown编辑器 所展示

2020-12-24 11:14:14 339

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除