- 博客(13)
- 收藏
- 关注
原创 NLP 中文信息抽取:Bert
1. 采用模式匹配法做实体抽取采用传统方法做信息抽取时,常用 Python 自带函数库 re。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如 str 自带的方法,但功能强大,得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言支持的语法数量不同,如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了1.1 re 基本语法要搜索的模式和字符串都可以是 Unicode 字符串(str)以及 8 位 A
2020-12-21 23:07:00 665
原创 2020-12-13- NLP 中文短文本分类
NLP 中文短文本分类通过 WordCloud 制作词云、用 LDA 主题模型获取文本关键词、以及用朴素贝叶斯算法和 SVM 分别对文本分类WordCloud 制作词云 jieba 分词安装jieba 俗称中文分词利器,作用是来对文本语料进行分词。全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后
2020-12-14 16:32:52 393
原创 最大似然估计统一最大后验估计
理论最大似然估计最大后验估计记录n次随机试验 Ω={ω1,⋯,ωn}出现正面的次数为m假设正面出现的概率为 θ=p(正面)那么产生随机试验结果的概率为:p(Ω|θ)式中 θ为自变量,频率学派认为这个概率θ最优解应该使得取最大值。在假设了正面出现的概率后,同时假设样本产生是有顺序,而且是独立同分布的,那么可以计算出现实验结果 Ω概率的具体形式:p(Ω|θ)=θm(1−θ)n−m求解上述以 θ为自变量的函数的最大值:式中为了方便计算将概率修改为了对数形式:求其最小值,对于抛硬币问题来讲
2020-12-07 18:44:38 161
原创 机器学习常用微积分表
导数函数y = f(x) 在点x0的某个邻域内有定义, 则当自变量x在x0处取得增量 deltax,函数输出值也相应取得增量deltay如果deltay与deltax的比值在delta_x趋于0时的极限存在,则f(x)在x0处的导数存在,即f(x)在x0处可导。该极限即为f(x)在x0处的导数,记作f’(x0)。如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。导函数若函数 f(x) 在其定义域包含的某区间 I 内每一个点都可导,则成f(
2020-12-01 18:08:03 487
原创 编译程序与编译原理
.编译程序的8个组成部分:(1) 词法分析程序(也称扫描器)(2) 语法分析程序(3) 语义分析程序(4) 中间代码分析程序(5) 代码优化程序(6) 目标代码生成程序(7) 错误检查和处理程序(8) 信息表格的管理程序编译程序的逻辑结构:(八个组成部分间的控制流程和信息流程)源程序->(1)词法分析程序->(2)语法分析程序->(3)语义分析程序->(4)中间代码生成->(5)代码优化程序->(6)目标代码生成->目标代码和以上1 2
2020-10-24 18:23:25 582
原创 自然语言处理与编译原理
前言人工智能处理问题的方法大致可分成两类:基于规则,模拟出“智能”行为;基于数据,让智能算法自己拟合出规则这两种方式。自然语言也可以从这两个角度处理问题,基于规则和基于数据并不是不相容,二者有各自的适用范畴,并且可以搭配处理自然语言。其中基于规则的 NLP 算法与编译原理有很多技术重叠点和相似性。编译原理形式语言定义形式语言是用来精确的描述语言(人工和自然语言)及其结构的手段。也成为代数语言学α,β均为字符串,重写规则α——>β表示字符串α可以被写成β。文法表示理论20 世
2020-10-17 17:45:42 2382
原创 Mysql——存储过程
存储过程(Stored Procedure)1.定义存储过程(Stored Procedure)是在数据库系统中,一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。存储过程是数据库中的一个重要对象。2.优点减少了sql语句的网络(从后端到mysql集群)传输从而提升了速度。耦合低:同时对应缺点。存储过程相当于java的包装的函数,这样隐藏了数据库的细节,减少了开发时间(一次存储狗创建,以后相似的逻
2020-09-26 18:40:58 128
原创 计算机网络——基本概念
计算机网络1.1.定义由若干节点和连接这些节点的链路构成的图,其节点为计算机网络2.1定义由若干节点和连接这些节点的链路构成的图。2.2.类型因特网定义 是由于许多小的网络(子网)互联而成的一个计算机网络,每个子网中连接着若干台计算机(主机)。通信协议3.1定义通信协议是指双方实体完成通信或服务所必须遵循的规则和约定。协议定义了数据单元使用的格式3.2类型以太网定义以太网是一种计算机局域网技术,是应用于数据链路层的协议TCP/IP(Transmis
2020-09-19 17:40:20 207 1
原创 计算机语言分类标准
计算机语言分类标准语言的抽象程度机器指令的生成方式数据类型检测启动时间数据类型转换编译定义将一种计算机语言转化为另一种计算机语言的过程。过程宏观1.高级语言————汇编语言————机器语言2.高级语言————机器语言3.汇编语言————机器语言4.高级语言————中间语言解释定义将编译形成的中间代码解释成机器语言的过程解释是一种特殊的编译过程中间语言————机器语言1.语言的抽象程度高级语言(High-level programming langu
2020-08-29 19:25:50 514
原创 Python——面向对象相关知识
一.面向对象(Object Oriented)1.定义根据对象调整2.概念范畴面向对象思想面向对象编程二.面向对象编程1. 定义-根据对象调整相关的数据和方法的编程方法2.概念范畴1. 类定义用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。(成员)结构属性 在类中定义的数据方法 在类中定义的函数2. 抽象对象——self(类对象)定义- self是一个特殊的变量(魔术变量?),该变量指向类对象作用
2020-08-22 18:29:36 101
原创 Python------基础学习(1)环境配置
环境配置Pycharm环境配置1.配置一个新的项目这个页面有两个选项:(1).New environment using 这个选项是建立一个虚拟的python运行环境,目录就是之前自己设置的项目目录下的venv(virtuleenvironment简称),这个虚拟环境可以包含你运行本工程需要的支持包,并可以在这个虚拟的环境 中安装新的支持包,这能给你建立一个相对独立的python环境.(2)第二个选项的意思是使用自己安装的python编译器去运行此工程,当然已经安装的site-p
2020-08-08 15:01:50 649
原创 算法——动态规划与递归的知识点
动态规划与递归递归(Recursion)定义递归是一个函数或者方法直接或者间接调用自身的过程。应用步骤1.明确函数的输入和输出(即函数的作用)2.明确递归终止条件3.寻找函数的递归关系式动态规划(Dynamic Programming)定义动态规划是一种使用分治策略的编程方法。1.动态规划法试图只解决每个子问题一次2.一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解时直接查表分治策略(Divide and Conquer)
2020-08-08 14:37:20 175
原创 Python——深浅拷贝的知识点
问题:Python浅拷贝与深拷贝的区别什么?拆解1.浅拷贝/深拷贝的定义?2.拷贝的定义?2.1用赋值去解释拷贝(将赋值视为拷贝的类属3.赋值的定义?3.1类属变量变量的定义?3.2差异用于赋值的对象数据类型什么是可变与不可变数据类型?
2020-08-02 16:46:35 118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人