自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shiter编写程序的艺术

大数据生态圈,计算机视觉,机器学习,高端技术的爱好者,话不多说,上代码!!!...

原创 从前有一个程序员,成天写代码,后来,他屎了。。。

每天你都有机会和很多人擦身而过,而你或者对他们一无所知,不过也许有一天他会变成你的朋友或是知己……先来看看老王和他的IT界朋友们吧p.s 经常有人问我,老王,你明明可以穿的挺帅,为什么总是穿的很随意呢?其实道理很简单,我是做技术活的,打扮太好人家会以为我技术不行。从前有一个程序员,成天写代码,后来...

2019-10-20 21:35:09 19794 57

原创 《黑客与画家:硅谷创业之父Paul Graham文集》----读书笔记

文章大纲保罗·格雷厄姆其人其事人物经历个人作品编辑译者序为什么书呆子不受欢迎黑客与画家不能说的话你是一个随大流的人吗真话异端邪说时空差异机制为什么这样做守口如瓶笑脸相迎?永远质疑良好的坏习惯另一条路设计与研究点评 保罗·格雷厄姆其人其事 人物经历 保罗·格雷厄姆以Lisp方面的工作而知名,也是...

2020-05-23 14:06:14 44 0

转载 做项目一定用得到的NLP资源

原文链接:https://github.com/fighting41love/funNLP 最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。 涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、...

2020-05-23 01:27:53 1928 0

原创 《周鸿祎自述:我的互联网方法论》----摘抄

周鸿祎个人简介: 周鸿祎这个人比较有争议,如果不是他,中国互联网的免费文化可能还不会像今天这样,免费,共享等等概念满天飞。周教主的核心理念是说,如果使用软件的用户足够多,那么软件成本分摊到每位用户就是近似免费的,而软件完全可以通过赞助商,广告商的出资抵消这部分成本费用。所以对于软件产业来说,用户...

2020-05-14 11:23:23 2229 0

原创 《自然语言处理实战入门》 第二章:NLP 前置技术----爬取本人CSDN博客

文章大纲1对象关系映射1.1 简介1.2 博客相关信息与对象映射2. 博客爬虫的编写2.1 爬虫爬取逻辑回顾2.2 爬取本人CSDN 博客 爬虫逻辑 1对象关系映射 1.1 简介 ORM框架的作用就是把数据库表的一行记录与一个对象互相做自动转换。 正确使用ORM的前提是了解关系数据库的原理。 ...

2020-05-08 09:17:30 196 0

原创 《自然语言处理实战入门》第二章: NLP前置技术----网络爬虫简介

我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型。在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办?在合理合法 的前提下自然语言处理 的语料和其...

2020-05-07 09:46:00 172 0

原创 《自然语言处理实战入门》---- 可视化初步

文章大概matplotlib 可视化相关设置matplotlib seaborn 绘图加载中文字体CentOS 安装中文字体查看matplotlib 字体目录查看系统可用的中英文字体matplotlib 设置中文字体seaborn设置中文字体其他解决 matplotlib 中文显示的思路 ma...

2020-05-05 09:29:48 90 0

原创 《自然语言处理实战入门》 ---- NLP 可视化 之 文本分析基础

文章大纲可视化,大数据最完美的呈现方式 推荐一本书,《数据之美》一本书学会可视化设计。 可视化,大数据最完美的呈现方式 大数据若是一种无形的土壤,那可视化就是浇水、施肥,让其开出美丽之花的工具。 大数据若是一种新型的石油,那可视化就是开发这种石油不可缺的设备 大数据若是烹饪的食材,那可视化就是将...

2020-05-04 15:53:50 113 0

原创 《AI进化论:解码人工智能商业场景与案例》----读书笔记

AI进化论:解码人工智能商业场景与案例 作者:亿欧智库 文章大纲业内人士力荐序第一章 跨越AI商业化“奇点”第二章 金融狂欢下的泡影第三章 积重难返?医疗AI的颠覆之路第四章 智慧安防:罪恶无处遁形第五章 自动驾驶:定义未来出行第七章 内容不再是人的专利第八章 AI赋能下的法律新格局第九章 AI进...

2020-04-25 23:46:04 203 0

原创 大数据ETL实践探索 ---- 使用python 进行 快速EDA综合可视化

文章大纲使用pandas 对数据进行处理非结构化数据可视化结构化数据可视化cubesuperset 使用pandas 对数据进行处理 非结构化数据可视化 结构化数据可视化 cube superset docker 方式安装 ...

2020-04-14 01:28:19 169 0

原创 《自然语言处理实战入门》---- 如何成为一名 NLP 工程师?

文章大纲名企需求实际需求总体情况知识体系提升计划核心能力提升题库资源优秀博文 名企需求 想要成为一名NLP 工程师,我们先要看看 # 美团 NLP 方向 优先任职资格: 1、有Tensorflow、Caffe2、 Theano等深度学习框架与自然语言处理结合实际项目经验者优先; 2、熟悉面向文本...

2020-04-01 00:01:40 173 0

转载 《硅谷钢铁侠》---- 读书笔记

目录第一章 马斯克的世界:跨领域创造第二章 出生地非洲:冒险无极限的基因第三章 挺进加拿大:追寻太阳的人第四章 第一次创业:征服网络世界第五章 PayPal黑帮大佬:发动国际金融革命第六章 太空召唤:建立SpaceX创新大军第七章 全电动车:超酷超快的特斯拉第八章 痛苦、磨难与新生:现实版钢铁侠的...

2020-03-22 13:59:28 253 0

原创 作为项目经理或管理者能从孙子兵法中学到什么

文章大纲1. 何为项目经理?1.1 项目经理和产品经理的区别1.2 项目经历的前景2.智、信、仁、勇、严 与项目经理的工作智信仁勇严 1. 何为项目经理? 我一直觉的项目经理是个扯淡的活儿,拆分任务、跟踪进度,这不就是催别人干活么。上传下达做好沟通,偶尔帮忙看看技术问题,因为我们项目有个经验丰富...

2020-03-17 15:22:06 210 0

原创 机器视觉4——光的偏振

黑色,宇宙最初的颜色,为零。当有了光,就有了颜色,所有的颜色汇聚在一起,成白色。白色是集大成的颜色,好似一片混沌,清浊不分。而你的真色彩,可能是一道靓丽的彩虹。就像人的性格是复杂的,复杂...

2020-02-21 16:08:04 359 0

原创 2016年简直一晃而过

2016年的生活有些忙碌,到年底一整年连续的日子成了离散的关键词。2015年这个时候,我还在学校深更半夜因为一个菜煎饼感动的痛哭流涕,一转眼2016年都要过完了。

2020-02-07 09:50:10 1888 10

原创 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理

随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法逐渐成为主流的分词算法。 其主要思想是把每个词看做是由字组成,我们可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合频度。

2020-02-07 09:32:18 550 0

原创 2016依然会给我惊喜,谢谢

七月份写过一篇日志,年终总结我们就从下半年开始吧。 这半年来总的来说,档期很满,所有事情基本按照规划都步入正轨,这让我想起来2013年考研时候教毛中特的包松老师在课程快要结束的时候给我们讲到,你对考研成功有强烈的渴求么吗?强烈到像溺水时候渴求空气一样的强烈吗?我有时候想做一件事情非常强烈的想要把...

2020-01-27 18:13:16 2500 8

翻译 赵老师的留下来

VC调试(TC或BC用TD调试)时按Alt+8、Alt+6和Alt+5,打开汇编窗口、内存窗口和寄存器窗口看每句C对应的汇编、单步执行并观察相应内存和寄存器变化,这样过一遍不就啥都明白了吗。 (Linux或Unix下可以在用GDB调试时,看每句C对应的汇编并单步执行观察相应内存和寄存器变化。) 想...

2020-01-27 18:04:38 2592 3

原创 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介---- 汉语分词领域主要分词算法、组件、服务(下)

3.云厂商API 百度语言处理基础技术 依托海量检索数据,并且搜索引擎本身就是NLP 最终的结果产出,所以在NLP领域,百度无论是语料库丰富程度,技术先进性,以及服务多样性等都是遥遥领先其他厂家,基本上可以算作是中文NLP服务提供商的业界最佳实践。 百度云语言处理技术:http://ai.b...

2020-01-25 01:07:22 1810 0

原创 《自然语言处理实战入门》 第二章:NLP 前置技术----正则表达式

文章大纲简介python 字符串操作python 正则表达式常用正则表达式正则表达式在线测试工具参考文献 简介 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(...

2020-01-21 00:42:23 697 0

原创 2019这一年

2019年是学习节奏缓慢的一年,生活工作中会遇到很过破事,处理不好就会让人放慢节奏,想要的太多,诱惑也太多,难免堕落。蒋方舟说,人一旦堕落哪怕是短暂的几年,上帝就会以更快的速度收走你的天赋与力量。人常说30而立,立不住,那就保持简单,保持移动。人常说不能老呆在舒适区,那是因为,你怎么知道没有一个更...

2020-01-19 00:23:08 1487 6

原创 《自然语言处理实战入门》 第二章:NLP 前置技术----python开发环境搭建

本节课的主要内容介绍python 工程化开发的实践经验,为后续网络爬虫,正则表达式,分词,可视化等功能进行铺垫。 爬取本人CSDN 博客 , 其目的是为了我们后面课程的一个原始数据积累,语料积累。有了这部分语料和素材我们就可以针对博客数据,实战化的进行一些有针对性的分析。在实际应用中,我们往往...

2019-12-19 15:46:42 570 0

原创 《自然语言处理实战入门》 第一章: 自然语言处理(NLP)技术简介

本博客为《自然语言处理实战课程》---- 第一课:自然语言处理简介 讲稿 文章大纲本节课程导览1.自然语言处理(NLP)简介1.1 基础技术1.2 NLP 核心技术1.3 NLP+(高端技术)1.4 课程涵盖的主要内容总揽2.知名NLP服务系统与开源组件简介2.1 单一服务提供商2.1.1 汉语...

2019-12-19 01:09:11 625 0

原创 aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

文章大概es 安装文件批量录入es功能 es 安装 版本控制 ES版本:7.2.0 分词器版本: kibana 版本: 下载地址 ES 下载地址:https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-2-0 kiban...

2019-12-12 08:36:49 622 0

原创 自然语言处理简介(1)---- 服务梳理与传统汉语分词

1.Nlp技术体系简介 1.1 基础技术 1.2 Nlp 核心技术 1.3 NlP+(高端技术) 2.知名NLP 服务系统简介 2.1汉语分词系统ICTCLAS 2.2 哈工大语言云(Language Technology Platform,LTP) 2.3 Amazon C...

2019-11-21 13:44:26 3425 0

原创 我的书单

书单目录序言1.《行走西藏》2.《***传》3《我所理解的生活》韩寒4《一个很高兴见到你》韩寒监制5《所有人问所有人》韩寒监制6《暗战亮剑——软件漏洞发掘与安全防范实践》7《程序员的思维修炼:开发认知潜能的九堂课》8《王小波,沉默的大多数》9《数字图像处理》冈萨雷斯10《并行程序设计openmp》...

2019-11-21 13:42:50 824 0

原创 《自然语言处理实战入门》---- 第1课:自然语言处理简介

大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。 随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的...

2019-11-21 13:41:48 1187 0

原创 《AI·未来》 读书笔记

文章大纲前言02 从竞技场杀出的世界级创业者04 两国演义和七巨头05 人工智能发展的四波浪潮06 乌托邦、反乌托邦和真正的人工智能危机07 一个癌症患者的思考简评 前言 随之而来,拥有世界最庞大手机用户群的中国得以最快地积累移动应用数据。移动用户基数使得中国的数据优势是美国的3倍,移动食品配送...

2019-11-09 15:52:44 702 0

原创 感知机——成长的烦恼

作者: 赵老师 写在前面,此文的目的只是单纯地跟大家分享自己对感知机学习的一些感悟。并不是科普文,对感知机没有认识的朋友可能并不能从此文得到清晰的概念,如果要学习感知机还是建议看经典的教材。 ==========正文========== 想写这样的文章很久了。至于动机,说来话长。...

2019-10-28 07:27:19 516 0

原创 aws基础架构学习笔记

文章大纲 Aws 学习笔记 Aws架构中心: https://aws.amazon.com/cn/architecture/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=des...

2019-10-24 14:04:37 1027 0

原创 2019 初入IT十年(下)---- 视线所及只剩生活

996 icu 事件已然过去一段时间,那时候 周鸿祎毫不忌讳地说,在中国,工资只能解决糊口问题。你想买房,就要拿到公司股份,而不是指望996。“在座的哪位如果能够真正做到快乐工作,平衡好家庭和工作的关系,我就叫他一声大爷。 我深以为然,穷是21世纪的顽疾,不单单是金钱,更是时间上的。

2019-10-12 23:32:00 1358 0

原创 《自然语言处理实战入门》 第三章 :中文分词原理及相关组件简介 ----汉语分词领域主要分词算法、组件、服务(中)

在深度学习相关算法应用到自然语言处理领域之前,基于统计模型的方法是NLP相关算法的主流,在一些应用中如:垃圾邮件过滤中取得了成功(分词后使用贝叶斯分类)。统计模型不能充分捕捉语境或反语等细微的语言要点,而且可能忽略词语间的连续性和相互关系。 目前深度学习在自然语言处理包括:语义情感分析,自动摘要...

2019-10-09 23:32:19 535 0

原创 统一数据接入实践分享

文章大纲统一数据接入数据接入的三个阶段前中后接入技术分析1.数据接入手段2.接入技术选择参考文献 统一数据接入 数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。 数据接入的三个阶段 前 0.非结构化数据----(word,...

2019-10-08 00:16:39 987 0

原创 大数据ETL实践探索(8)---- 数据清洗的目的,方法

文章大纲数据清洗的目的解决数据质量问题让数据更适合做挖掘、展示、分析数据清洗的步骤第0步:数据导入及元数据处理第一步:缺失值清洗第二步:格式内容清洗第三步:逻辑错误清洗第四步:非需求数据清洗第五步:关联性验证一行代码探索性数据分析参考文献 我们目前进入了一个大数据的时代。以我目前经常处理的医疗保...

2019-10-03 00:44:57 1088 0

原创 python Pandas Profiling 一行代码EDA 探索性数据分析

Generates profile reports from a pandas DataFrame. The pandas df.describe() function is great but a little basic for serious exploratory data analysi...

2019-09-19 16:17:15 855 0

原创 小黑

小黑是我老公,因为黑,第一次见他在晚上,就看不清脸,所以以后就叫他小黑。 遇到小黑之前,我是个有着强烈”社交恐惧”的人,甚至和人说话不敢直视别人的眼睛,可是这些在小黑这里根本不存在的,因为他黑的根本就找不到眼睛。

2019-08-30 02:14:33 1518 4

转载 大唐长安人杜环在两河流域, 耶路撒冷和北非的行程

一个西安人, 去了巴格达, 耶路撒冷和北非, 回国后写了游记. 这挺正常的. 但是这件事发生在1300年前的唐朝, 就显得有些神奇了. 花了点时间整理了下这个唐朝的长安人...

2019-08-06 23:46:35 658 0

原创 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词效果评测最佳实践

汉语分词技术----以jieba 分词为例 以我认为使用起来最友好的jieba 分词为例,我们来认识一下基于统计类算法的汉语分词流程。 图片中例子参考:http://www.cnblogs.com/zhbzz2007/p/6076246.html Jieba分词的特点 结巴分词安装好即可使用,自...

2019-07-24 17:15:52 586 0

原创 《自然语言处理实战入门》 ---- 第三章 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)

基于词典的分词方法,有诸多限制,不能完成新词识别分割的问题,目前学界,工业界基本都采用基于统计的方法进行汉语分词。本文我们分别就目前业界使用频率最高的一些分词组件依次介绍。

2019-07-24 17:01:38 737 2

原创 《自然语言处理实战入门》 第三章 :中文分词原理及相关组件简介 ---- 语言学与分词技术简介

汉语,即汉族的语言,是中国通用语言,国际通用语言之一,属汉藏语系,汉语历史悠久,使用人数最多,世界上使用汉语的人数至少15亿 ,超过世界总人口的20% 汉字最早起源于商朝的甲骨文,距今已经有3000-4000年的历史了。 文字的目的是为了记录,古汉语以独字为核心,即使隋唐以后汉语书面语逐渐向口语...

2019-07-13 19:01:55 664 0

提示
确定要删除当前文章?
取消 删除