自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 【无标题】

NLTK:自然语言处理工具包,是聊天机器人需要的比较重要的一个工具安装:pip install nltk[root@centos #] pythonPython 2.7.11 (default, Jan 22 2016, 08:29:18)[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwinType "help", "copyright", "credits" or "license" for more informa

2022-01-13 10:55:26 174

原创 【无标题】

基于TF-IDF的文本相似度计算相似度就是去量化的比较两个事物的一种度量,实质计算机能够识别的就是二进制符号,所以对于相似度的计算可以是文本、音频、图片等方面。首先,介绍一种最为简单的相似度计算方法:余弦相似度余弦相似度的思想就是把两个向量的夹角进行余弦值计算,取值范围应该在0和1之间...

2022-01-11 17:21:36 179

原创 【无标题】

小坑小细节导入joblib包的时候:这是第一种方法; import joblib还有第二种方法; from sklearn.externals import joblib需要从sklearn里面导入,如果方式不对有可能代码会报错在这里插入代码片

2021-12-22 09:58:00 56

原创 【无标题】

承接上个软文#!/usr/bin/python# -*- coding: UTF-8 -*- print("网站名:{name}, 地址 {url}".format(name="菜鸟教程", url="www.runoob.com")) # 通过字典设置参数site = {"name": "菜鸟教程", "url": "www.runoob.com"}print("网站名:{name}, 地址 {url}".format(**site)) # 通过列表索引设置参数my_list = [

2021-12-03 15:29:13 73

转载 【无标题】

python 入门当你看到输出语句存在%d,%s,%f等百分号的时候,就接触到python 字符串格式化输出相关知识。Python 支持字符串格式化输出,尽管这样可能遇到非常复杂的表达式,但最基本的是用法就是将一个值插入到一个有字符串格式符%s的字符串中。如,例1:name = '阿昌'print("大家好,我叫%s"%name)输出大家好,我叫阿昌在程序中,看到%s这样的操作符,这就是python中字符串格式化的符号。除此之外,还可以用%符号对其他类型的数据进行格式化。常见的格式化符号如下

2021-12-03 15:25:26 69

转载 打开git

在本地项目目录打开git命令窗口或者从命令窗口进入到项目目录;1、git init 初始化2、git checkout-b branch_name 新建分支并切换3、添加文件和提交信息: git add . ; git commit -m “” ,然后切换并合并到主干git checkout -b master4、添加远程仓库: git remote add origin [url]5、git push -u origin master 提交代码到远程仓库备注:如果没有将远程仓库的原始文件

2021-11-24 14:31:31 670

原创 python2和python差异的

python2和python差异的通常我们为了防止出现乱码会进行一下操作import sysreload(sys)sys.setdefaultencoding(‘utf-8’)但这是python2的写法,但是在python3中这个需要已经不存在了,这么做也不会什么实际意义。如果你要这么做就会出现一下错误sys.setdefaultencoding(‘utf-8’)AttributeError: module ‘sys’ has no attribute ‘setdefaultencoding

2021-11-24 09:45:11 611

原创 正则定义(bulabula)

正则定义(bulabula)我们管[公式]叫做经验风险,管上面我们思维导图的过程叫做正则化,所以顺其自然的管r(d)叫做正则化项,然后管[公式]+r(d) 叫做结构风险,所以顺其自然的正则化就是我们将结构风险最小化的过程,它们是等价的...

2021-09-17 16:52:45 330

原创 2021-09-16

多分类的利弊单标签多分类:1.(利)可以预测一个准确的客户意愿,特征数据协调起来比较简单,即分配不同的权重,特殊情况拿出来处理一下2.(弊)不能得出一个全面的意愿结果,客户有时候确实是有汽车相关的意愿还有出行的意愿,多标签多分类:1.(利)全面预测客户意愿2.(弊):做起来比较复杂,需考虑预测值之间的依赖等问题困难:具体到分类采用 OVO(一对一) OVR(一对多)还是纠错码机制(多对多)多标签的的输入数据标签之间的依赖关系处理模型的泛化能力能达到怎么样的一个程度做多分类:可以用打分

2021-09-16 17:41:39 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除