自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(199)
  • 资源 (9)
  • 收藏
  • 关注

原创 文本清洗正则表达式(持续更新)

文章目录替换标点:中->英转小写查找时间数量词文本切分替换标点:中->英def replace_punctuation(text): """替换标点(英→中)""" text = text.replace(',', ',') # 逗号 text = text.replace(';', ';') # 分号 text = text.replace(...

2019-09-16 15:57:03 1412 4

原创 Python【print】常用颜色(复制用)

字体颜色# redprint('\033[031m')print('\033[0m')# yellowprint('\033[033m')print('\033[0m')# blueprint('\033[034m')print('\033[0m')# purpleprint('\033[035m')print('\033[0m')# 蓝绿色print('\033[0...

2018-06-18 11:43:57 1657

原创 大数据入门之Spark

文章目录简介部署运行pyspark简介Apache SparkTM是用于大规模数据处理的统一分析引擎在Scala语言中实现部署运行pyspark

2020-11-21 16:46:58 130 1

原创 大数据入门之Java基础

最近学大数据,据说要懂点Java才行简介安装第一个Java程序IDE安装基础语法代码注释命名规范基本结构Java是Java面向对象程序设计语言和Java平台的总称主要特性:面向对象、解释型、平台独立与可移植性

2020-11-17 19:59:36 119 2

原创 白痴如我git入门自用笔记

文章目录

2020-11-17 00:10:45 36

原创 python打印a~z

a~zprint([chr(i)for i in range(ord('a'), ord('z') + 1)])['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']print(''.join(chr(i)for i in range(97, 123)))abcdefghijklmnopqrs

2020-11-13 14:43:54 17

原创 Python极简WEB开发HTML、CSS、JavaScript、Flask

HTTPHTMLCSSJavaScriptFlaskGET方法POST方法HyperText Transfer Protocol超文本传输协议HyperText Markup Language超文本标记语言Cascading Style Sheets层叠样式表

2020-11-04 23:39:26 33 1

原创 Python3网络编程socket笔记

pythonpython3socket网络编程通信网络通信通信协议TCP/IP协议套接字服务端客户端

2020-10-31 11:02:21 111

原创 Python3模块pika连接RabbitMQ消息队列(代码自用)

消息队列(Message Queue):在消息的传输过程中保存消息的容器RabbitMQ:实现了高级消息队列协议(AMQP)的开源消息代理软件Python连接RabbitMQpika安装生产者消费者封装自用

2020-10-24 21:22:29 113 1

原创 NLP算法Python相近词查找

近义词查找近似词查找相近词查找自然语言处理NLP词向量编辑距离找邻居使用编辑距离查找相近词

2020-10-24 21:20:42 144 1

原创 程序员的金融笔记:金融-基础知识

经济:人们生产、流通、分配、消费一切物质精神资料的总称经济学:研究 如何 对 社会稀缺资源 进行 有效分配金融:货币的发行、流通和回笼,贷款的发放和收回,存款的存入和提取,汇兑的往来等经济活动金融市场&金融工具利率&金融资产定价金融机构&金融制度商业银行经营与管理投资银行&证券投资基金信托&租赁金融工程&金融风险货币供求及其均衡中央银行与金融监管国际金融及其管理汇率

2020-10-24 21:13:13 231 1

原创 程序员的金融笔记:金融史

《搞懂金融的第一本书》天津教育出版社豆瓣8分多1、货币史2、银行史3、负利率时代4、美元史5、汇率史6、通货膨胀史7、房价

2020-10-21 16:44:38 382 6

原创 程序员的金融笔记:经济学原理-宏观经济学-曼昆-第7版

经济学:研究 如何 对 社会稀缺资源 进行 有效分配1、国内生产总值(GDP)2、消费物价指数(CPI)生产者价格指数(PPI)真实利率 & 名义利率3、生产率生产率的决定因素储蓄和投资4、金融金融市场金融机构 & 金融中介机构储蓄现值 & 终值 & 基本面分析5、货币制度货币银行 & 美联储准备金 & 货币乘数 & 杠杆美联储 控制 货币供给6、通货膨胀7、开放经济汇率(外汇利率)外汇市场8、短期经济波动9、失业

2020-10-09 13:20:11 320 3

原创 程序员的金融笔记:经济学原理-微观经济学-曼昆-第7版

1、市场1.1、供给 & 需求 & 弹性1.2、价格上限 & 价格下限2、税收2.1、税收归宿 & 赋税的无谓损失2.2、税制3、消费者 & 生产者 & 市场效率4、外部性 & 公共物品 & 公共资源5、国际贸易5.1、出口国 & 进口国5.2、关税6、生产成本6.1、利润6.2、生产函数6.3、成本曲线6.4、短期成本 & 长期成本7、市场竞争 & 垄断 & 寡头8、劳动市场8.1、生产要素市场8.2、收入与歧视9、消费者选择理论9.1、预算约束9.2、消费者偏

2020-10-07 13:36:08 185 1

原创 Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA

实际工作中,待测数据可能已知,也可能未知逻辑回归整体最优(最高准度第2,平均准度第1,结果稳定,速度ok)独热编码优于词向量独热编码tfidf优于count线性svm训练时间过长,结果不稳定独热tfidf+线性svm准度最优深度学习的训练轮数不易确认,导致不稳定数据量较少情况下深度学习的准确度较机器学习低词向量相当于降维,低维空间上,逻辑回归和线性SVM效果一般,高斯核函数SVM效果更好但不稳定无监督学习中,【词向量+专家系统】有76%的准确率主题模型LDA是垃圾

2020-09-27 15:18:37 125

原创 【原创首发】训练集停止训练后,验证集加入训练(在深度学习算法中)

在深度学习中,为了防止过拟合,被切分出来的验证集用来停止训练,但木有用于训练而导致浪费本文尝试训练集停止训练后,验证集加入训练,并用多组参数进行实验图像识别结果有提升,非常不稳定但可控,建议在选择10%作为验证集并在训练结束后加入至少1次文本分类结果有明显提升,不稳定但可控无论哪种分类,训练集结束后,进行至少一轮验证集,极高概率提升模型准确率

2020-09-26 09:48:45 177 1

原创 标注数据较少时【长文本分类任务】的半监督学习Python算法

具有小量准确标注数据#mermaid-svg-O0JlRfpc08ZZQ7aH .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .label text{fill:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .node rect,#mermaid-svg

2020-09-19 00:10:29 146 5

原创 给自己立一个人生目标(不定更)

近期目标每周两次运动(羽毛球、健身、跑步、乒乓球、golf……)夏天23.45前睡,冬天23.30前睡

2020-09-17 17:41:10 1511 8

原创 【20行代码】中文NLP词向量词聚类Python原创算法(直接复制可用)

文章目录学前基础原理词向量+norm+kmeans部分结果展示学前基础1、词向量2、聚类算法原理:语料>文本切分>词向量>词单位向量>聚类主要可调参数: 停词和词性过滤时间词处理词窗词向量维度sg=1簇数失败实验词向量+kmeans:高频词和低频词会被分开词向量+norm+DBSCAN:大部分词被连成一片LDA(长文切短):大部分词主题概率极低(主题0)

2020-09-10 11:08:19 416

原创 信息抽取Python算法总结:词库匹配,词向量,TFIDF,机器学习,深度学习(持续更)

文章目录词典匹配词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量LDA词典匹配from jieba import cutlexicon = {'剑圣', '大法师', '守望者', '山丘之王'}def extract(text): return [w for w in cut(text)if w in lexicon]print(extract('剑圣斩杀大法师'))词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量

2020-09-02 20:51:42 277

原创 标注数据类型及对应的监督学习方案

具有大量准确标注数据具有小量准确标注数据基于规则的数据增强筛选高概率的数据增强图像数据增强逆离散化or上采样迁移学习数据含有标注,但与业务需求不完全相符标注粒度过粗标注元数不同标注数据含噪音无标注数据半监督学习方案无监督学习方案文本数据结构化文本数据非结构化文本数据半结构化文本数据

2020-09-02 10:19:47 107

原创 NLP关键词权重算法总结Python实现(超级全,持续更)

词频TFIDF词在文中位置文章总长度词长词跨度词性词与主题的关系否定句自然衰减权重TextRank内联权重上下文特征向量最尾补充一些失败实验

2020-09-01 14:16:18 541

原创 词向量变种大全Python原创代码:引入词性、引入TFIDF、单位向量、降维

1、词向量引入词性1.1、原理1.2、预设词性特征1.3、完整代码示例1.4、效果比较及改进方向2、词向量-->单位向量2.1、原理2.2、极简代码3、词向量+TFIDF3.1、原理3.2、极简代码3.3、引入TFIDF前后可视化对比4、降维4.1、降到二维并可视化4.2、降到三维并可视化对训练后的词向量,引入预设词性特征应用场景:关键词抽取提升、命名实体识别提升…大家可以根据自身业务场景来选择是否引入词性

2020-07-25 11:01:00 353 2

原创 NLP相关的语言学基础

自然语言处理是一门融语言学、计算机科学、数学于一体的科学。只会数学和计算机是不够的,本文补充相关的语言学基础。语言学是以人类语言为研究对象的学科。探索范围包括语言的性质、功能、结构、运用和历史发展,以及其他与语言有关的问题。语言学的重要分支学科:语法学。相关重要学科:英语语法、汉语语法、句法、词法、现代汉语…主要目的:搞清楚哪些词属于什么词类;词性标注表的由来。

2020-07-22 08:09:43 787

原创 我用程序求解2020广东高考理数压轴题

2020广东理数第21题【函数】已知 f(x)=ex+ax2−xf(x)=e^x+ax^2-xf(x)=ex+ax2−x(1)当 a=1a=1a=1 时,论 f(x)f(x)f(x) 单调性(2)当 x≥0x \geq 0x≥0 时,KaTeX parse error: Undefined control sequence: \geqx at position 6: f(x) \̲g̲e̲q̲x̲^3 + x...

2020-07-12 21:13:24 149

原创 区间[0,1]的各种函数图像(不定更)

对称轴x=0.5from matplotlib import pyplot as mpdef quadratic(x, n=2): return (2 * x - 1) ** nw = [i / 400 for i in range(401)]mp.figure(figsize=(5, 5))mp.scatter([0, .5, 1], [1, 0, 1], s=75, color='b', alpha=.3)mp.plot(w, [quadratic(i) for i in w],

2020-06-27 19:02:02 311

原创 脱单啦~

[print('\033[91m'+i,end='',flush=True)for i in('\n'.join(' '.join(('I love U '[(x-y)%9]if((x*.05)**2+(y*.1)**2-1)**3-(x*.05)**2*(y*.1)**3<=0else' ')for x in range(-30,30))for y in range(15,-15,-1)))]心形线(x2+y2−1)3−x2y3=0(x^2+y^2-1)^3-x^2y^3=0(x2+y2−1

2020-06-23 23:57:02 137

原创 IT行业工作轶事(不定更)

有些“大佬”总是在“指点江山”,却从来不干实事为了学习某个新技术,而选择用那个技术有时要背负职责之外的锅某人开发了一个没有告诉别人的功能领导的技术栈决定了下属的技术栈技术考虑过于长远妹子们长期享有的性别红利,她自己却感知不到团队里不能没有妹子产品设计考虑过于长远有时候学姐也很主动帮助学妹

2020-06-23 14:18:15 122

原创 重要统计数据网站收集(不定更)

文章目录网站网站名称网址备注宏观经济http://www.gov.cn/shuju/index.htmGDP、总人口、社会消费品零售总额、粮食产量…统计局http://www.stats.gov.cn/区划、行业…搜狗词库https://pinyin.sogou.com/dict/NLP词库百度迁徙https://qianxi.baidu.com/2020/人口流动广东统计http://gddata.gd.gov.cn/广东宏观经济

2020-06-23 14:15:19 316

原创 读书有用论

文章目录前言现象受害教育是什么初等教育中等教育高等教育中国教育中国大学有多垃圾?分析当前中国宏观经济出路先博后渊优先学习通用技能选错专业怎么办理想前言现象见过很多远山农村子弟,努力考学,荣进985211,却因为专业天坑,教学与社会脱节,不负责任的教师误人子弟,负责人的教师庸医杀人B乎上几乎所有专业都在劝退阶级固化话题热议重本理工科学生毕业后从事销售(不是说销售不好,很多销售员收入比远远吊打工程师)研究生同学呆了6年实验室,毕业后的工作竟与做实验无关!受害而本人亦是劝退专业的巨大受害者之

2020-06-23 13:48:02 183

原创 数据产品项目失败总结

最近做的数据产品非常垃圾,在此作出总结和反思1、老板不是数据产品的专家通常在小公司,老板就是【产品经理+业务砖家】。当初老板主导了一款功能产品成功上线,在此基础上投资第二款数据产品。老板在功能产品上亲历亲为,而在数据产品上,既不太懂,也管不了太多,只能给大方向,给不到细分目标。2、缺少业务专家老板不是数据产品业务专家的情况下,就必须要招聘一位业务专家以及数据产品经理。然鹅老板对业务专家这个角色的**投入不够!**起初聘请外部顾问作为兼职,后来才招聘正式的业务人员,而这个业务人员远远达不到专家水

2020-06-23 13:19:47 149 2

原创 Python手写进制转换(二进制、十进制、十六进制、26进制)

十进制转其它进制其它进制转十进制

2020-06-23 12:24:19 253 2

原创 【讲给公司同事的】人工智能+机器学习

文章目录人工智能什么是人工智能什么不是人工智能机器学习人工智能什么是人工智能Artificial Intelligence(缩写AI)研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。计算机科学的一个分支通俗说就是:赋予机器学习能力,让机器像人一样聪明什么不是人工智能人工智能的应用有哪些技术应用图像识别人脸识别、指纹解锁、自动美颜…语音识别输入法语音转文字自然语言处理舆情分析、聊天机器人、机器翻译、搜索引擎、推荐

2020-06-13 15:11:29 154

原创 宏观经济运行情况

2020年GDP人口人均GDP第一产业GDP三大产业占比社会消费品零售总额粮食产量网站和指标国内生产总值(GDP)三次产业居民消费价格指数(CPI)人口数社会消费品零售总额粮食产量棉花产量油料产量工业生产者购进价格指数(PPI)工业增加值固定资产投资(不含农户)

2020-06-12 15:23:56 309

原创 Python读取PDF、WORD、EXCEL、PPT里文本

文章目录场景PDFWORDEXCELPPT场景获取文件中的文本内容PDFWORDEXCELPPT

2020-06-12 14:33:23 813 3

原创 Python监督学习【词分类】算法

基于统计单标签多分类多标签多分类机器学习补充全部分析结果比较阅读扩展:半监督词分类算法前言场景根据关键词来判断一个标题属于什么类型的文章例如《小米雷军用苹果被吐槽,官方回应:不用就是不关心产品》标题里出现小米和苹果,则大概率认为该文章的主题是手机,而此处就是要用算法找出【小米、苹果】这类词及其对应的主题常用方法基于统计、监督分类模型(贝叶斯…)、半监督、无监督模型(词向量…)

2020-05-21 09:59:16 246

原创 Python常用脚本头(复制自用)

配置系统路径import os, syssys.path.append(os.path.dirname(__file__))忽略FutureWarningimport warningswarnings.filterwarnings("ignore")#!ffvim a.py#!anaconda3/bin/pythonimport sys;print(sys.versio...

2020-05-20 19:59:41 241

原创 Python读写ElasticSearch【自用】

按照和基本调用安装conda insatll elasticsearch基本调用from elasticsearch import Elasticsearch, helpersHOSTS = 'http://abc.com'INDEX = 'abc'es = Elasticsearch(HOSTS)js = es.search(INDEX, {'query': {'match_all': {}}})print(js)封装自用from elasticsearch import E

2020-05-20 09:40:34 144

原创 Python默认起始时间

Python默认起始时间为1970-01-01 08:00:00代码验证import timet = 0print(time.localtime(t))print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(t)))打印结果time.struct_time(tm_year=1970, tm_mon=1, tm_mday=1, tm_hour=8, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=1, tm_

2020-05-15 20:20:20 257

原创 计算单词在文章中不同位置的权重

场景在信息抽取中,词语在文章中各个位置具有不同的权重。把文章简单分为前中后三部分,某词出现在前面时有较大概率是关键词,出现在其它位置时有较小概率是关键词例如某【日期类】实体在结尾出现的概率较大,故该实体结尾权重较高,在开头和中间出现的词极可能是伪实体通常文章信息权重排序:开头>结尾>中间步骤统计实体在文章出现的位置计算位置密度计算位置权重

2020-05-13 09:04:43 309

自然语言处理文本分类实验|文本分类实验2020-9-27.rar

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

NLP文本10分类EXCEL|data10.xlsx

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

中国行政区划(更新至2018-10-31)

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-14

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除