自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 pandas.get_dummies函数 新增列类型

get _ Dummies 函数在 Pandas1.6.0版本之前返回 numpy.uint8,无符号八位整数。在1.6.0版本开始更改为默认返回 numpy.bool ,numpy 布尔值。粘贴一下原函数,该函数主要用于对类别型特征做 One-Hot 编码(独热编码)修改一下代码,增加参数dtype=int。输出:新增列类型变为了int类型。输出新增列默认是布尔类型。

2023-10-16 17:50:14 177 1

原创 自然语言处理之词典分词

目录2. 词典分词2.1 什么是词2.2 词典2.3 切分算法2.4 字典树2.5 基于字典树的其它算法2.6 HanLP的词典分词实现2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1 什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。词的性质–齐夫定律:一个单词的词频与它的词频排名成反比。2.2 词典互联网词库(SogouW,

2021-08-28 10:20:20 2199

原创 IDEA 出现 java.lang.OutOfMemoryError: Java heap space 解决方式

贴一下问题:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie.allocate(DoubleArrayDictionaryTrie.java:188) at org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie.init(Do

2021-08-27 10:09:04 4703 2

原创 自然语言处理之新手上路

1. 新手上路自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。美国计算机科学家Bill Manaris在《计算机进展》( Advances in Computers)第47卷的《从人机交互的角度看自然语言处理》一文中曾经给自然语言处理提出了如下的定义:“自然语言处理可以定义为研究在人与人交际

2021-08-26 16:31:26 186

原创 爬虫实战——爬取豆瓣电影Top250榜单电影

爬虫实战——爬取豆瓣电影Top250榜单电影话不多说直接上代码 注释较为详细import re # 正则表达式,进行文字匹配import urllib.request, urllib.error # 制定url,获取网页数据import xlwt # 进行excal操作import sqlite3 # 进行SQLite操作from bs4 import BeautifulSoup # 进行网页解析,获取数据def main(): baseurl = "https://movie

2021-08-26 16:17:46 1082 2

原创 pytorch基本语法

Pytorch基本语法Pytorch 是一个基于NUMPY的科学计算包,提供强大的GPU强大功能的能力1. 创建矩阵的操作1.1 创建一个没有初始化的矩阵x = torch.empty(5, 3)x# 输出结果"""tensor([[9.2755e-39, 1.0561e-38, 4.5919e-39], [5.1429e-39, 4.9592e-39, 8.9082e-39], [8.9082e-39, 1.0194e-38, 9.1837e-39],

2021-08-26 16:09:11 258

原创 Python机器学习之简单线性回归以及案例分析

简单线性回归本次介绍最简单的线性回归模型——将数据模拟合成一条直线。直线模拟的模型方程为 y = ax + b,其中 a 是直线斜率,b 是直线截距。模拟数据从斜率为2,截距是-5的直线中抽取散点并绘制散点图代码如下:# 常用库import matplotlib.pyplot as pltimport seaborn as sns;sns.set()import numpy as np#这里的randomstate=1指的是伪随机数生成器的种子,简单来说每个种子对应一个随机数rng =

2021-05-13 18:02:47 609 7

原创 python--列表切片的理解

python–列表切片[:][:] 分号前面表示起始索引,后面表示终止索引str[a:b]表示截取字符串的a开始的位置,b表示结束位置。如果为[a:] 并且a为负数表示输出列表中最后a个元素。如果为[:b] 并且b为负数则表示去除后几位。如果起始索引为0则可以省略起始索引# 索引从0开始。players = ['ming', 'hong', 'hei', 'lihua']# [0:3]中0表示从0开始进行输出,3表示在3的前一个元素输出完后停止print(player[0:3])# 输

2021-04-19 17:08:02 250 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除