![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
开发
文章平均质量分 57
记录一些小问题
谁怕平生太急
110010
展开
-
Kmeans和DBSCAN
Kmeans1.类别是人为给定的如何确定最佳的类别数目,可以通过基于簇内误差平方和,使用肘方法确定簇的最佳数量,肘方法的基本理念就是找出聚类偏差骤增是的k值,通过画出不同k值对应的聚类偏差图。DBSCAN基于密度聚类。密度:样本的紧密程度。使用半径和最小样本量进行评估,如果在指定的半径领域内,实际样本量超过给定的最小期望样本量。K-means和DBSCAN对比:优点:DBSCAN不需要事先要形成的簇类的数量;DBSCAN可以发现任意形状的簇类;DBSCAN能够识别出噪声点;DBSC原创 2021-03-05 15:08:30 · 1311 阅读 · 0 评论 -
Vue的学习笔记
1 Vue是什么?一套用于构建用户界面的渐进式JS框架,Vue被设计为自底向上逐层应用,核心库只关注视图层,方便与第三方库或既有项目整合。JS:具有函数优先的轻量级,解释型或即时编译型的编程语言。web项目的三层结构:视图层、业务逻辑层、持久层视图层:网页的界面,可以用html,jsp,swing来实现业务逻辑层:业务层用来实现整体的业务逻辑,如前台获得了数据,逻辑层去解析,数据校验等操作持久层:持久层用来固化数据,如常用的DAO层,操作数据库将数据入库1.1 需要了解的知识HTMLCSS原创 2021-02-23 11:06:08 · 310 阅读 · 0 评论 -
几个适用NLP的python包
1 jieba分词2 pyltp段落分句,3 transformers分词抽取文本中token的嵌入表示,隐藏特征,平均得到句向量等4 re邮箱抽取,规则5 collections词频统计,文本纠错6 sklearnmetrics.pairwise.cosine_similarity :文本的余弦相似度,feature_extraction.text.CountVectorizer: 向量化表示feature_extraction.text.TfidfVectorizer : T原创 2021-01-25 17:22:22 · 415 阅读 · 0 评论 -
那些显而易见被写出来的bug
对字符串做替换操作,导致原始的索引不能用bert原生的tokenizer改变了数字的位数,比如’1551033’—tokenizer—>‘155’,’##10’,’##33’原创 2020-12-10 10:35:07 · 112 阅读 · 0 评论 -
pytorch的一条条
1.model.train()和model.eval()pytorch中的model.train()和model.eval()model.train() #使用BatchNormalization()和Dropout(),此举会修改网络中的参数model.eval() #不使用BatchNormalization()和Dropout(),即用于验证和测试阶段网络的固化2.torch.nn.BCELoss()和torch.nn.CrossEntropyLoss()Pytorch详解BCELoss和原创 2020-12-07 19:33:23 · 143 阅读 · 0 评论 -
Milvus的学习
milvus基本介绍和推荐资料一款开源的、针对海量特征向量的相似性搜索引擎。支持各种常用的相似度计算指标,包括欧氏距离、内积、汉明距离和杰卡德距离等。基于高度优化的approximate nearest neighbor search(ANNS)索引库构建,包括faiss,annoy和hnswlib等。使用手册:https://www.milvus.io/cn/docs/v0.10.3/overview.md不得不说,使用手册写的是真全面!存储相关建立集合时,Milvus根据参数 se原创 2020-11-26 16:58:03 · 1402 阅读 · 0 评论 -
序列求和的6种实现方式
my_list = [[1,2,3], [40,50,60], [9,8,7]]## 1.import functoolsfunctools.reduce(lambda a,b:a+b, [sub[1] for sub in my_list])## 2.functools.reduce(lambda a,b:a+b[1], my_list, 0)## 3.import numpy as npmy_array = np.array(my_list)np.sum(my_array[:,1原创 2020-09-07 15:48:51 · 748 阅读 · 0 评论 -
excel文件转json
import xlrdfrom collections import OrderedDictimport jsonimport codecsconvert_list = []sh = wd.sheet_by_index(0)title = sh.row_values(0)num = 1for rownum in range(1, sh.nrows): rowvalue = sh.row_values(rownum) single = OrderedDict()原创 2020-05-22 11:34:26 · 280 阅读 · 0 评论 -
条件关系和因果关系,原因和理由的区别
条件关系和因果关系的对比:条件关系:分句之间的关系是条件和结果的关系。偏句提出一种真实或假设的条件,正句说明在这种条件下所产生的结果。因果关系:正句和偏句之间是原因和结果的关系的句子。偏句说明原因,正句说明结果。一般是偏句在前,正句在后。因果复句分为说明因果句和推论因果句两类。条件关系属于思想中命题的某种逻辑关系,因果关系属于对客观事实的某种认识。条件关系是关于命题的,而因果关系是关于事实...原创 2020-03-05 01:02:05 · 10070 阅读 · 0 评论 -
pymongo的一些操作记录
记录菜鸟教程中不包含的部分操作:获得collection中documents总数mycol.count_documents({})用python操作MongoDB查询collection中最新的一个documentmycol.find_one(sort=[(’_id’, -1)])pymongo的比较排序查询性能比较,sort参数和sort函数, find和find_one...原创 2020-03-02 11:18:49 · 227 阅读 · 0 评论 -
查询关键字理解的难度
简单说明查询关键字,即通过搜索引擎,填入到搜索框中的内容,不限于百度,微信搜一搜,美团,微博等站内搜索。也可以称之为query。用户意图识别方面:爱情公寓资源 – 重点是资源医生表情包 – 重点是表情包怎么恢复聊天记录 – 和健康无关华侨城集团招聘 – 和旅游无关烧烤店爆炸 – 重点是爆炸面朝大海、春暖花开 – 和旅游无关“宝宝”的query 大概率被分成母婴类q...原创 2020-03-01 13:26:59 · 183 阅读 · 0 评论 -
倒排索引
由来正向索引: 文档–>单词如果使用正向索引, 当用户搜索 关键词 A 时, 需要扫描索引库中的所有文档,找出所有包含 A 的文档, 然后根据打分模型进行打分, 排出名次后 呈现给用户。这样做,无法满足实时返回结果给用户的 需求。倒排索引: “关键词” --> 带有此关键词的 文档ID列表详细实现 “单词–文档矩阵”的一种具体存储形式。示例参数解释:单词ID:...原创 2020-02-27 15:52:48 · 158 阅读 · 0 评论 -
搜索系统评测的指标
“二元相关”原理从根本上不支持排序的评测。基于多程度相关原理的评测折扣化的累积获得,简称DCG(discounted cumulative gain)。1)首先,一个排序的整体相关度,是这个排序的各个位置的相关度的某种加权2)其次,每个位置上面的“获得”是和这个文档原本定义的相关度相关的,但是,根据不同的位置,要打不同的“折扣”即位置越低,折扣越大。原始的DCG定义:“折扣”是文档的相...原创 2020-02-27 11:06:50 · 448 阅读 · 0 评论 -
查询关键字的分类、解析、扩展
搜索的第一步:对query的理解原创 2020-02-26 16:44:57 · 607 阅读 · 0 评论 -
简单判断两个字符串的相似程度
可直接使用difflib.SequenceMatcherdef ratio(self): """Return a measure of the sequences' similarity (float in [0,1]). Where T is the total number of elements in both sequences, and ...原创 2020-02-25 15:17:33 · 2240 阅读 · 0 评论 -
代码质量管理
原创 2020-02-18 18:31:18 · 384 阅读 · 0 评论 -
了解搜索引擎爬虫(一)
搜索引擎爬虫magi.com 的网页抓取工具原创 2020-02-17 11:23:08 · 282 阅读 · 0 评论 -
git和docker部分命令
Gitgit config --global user.name " "git config --global user.email " "git remote add origin git@ :git statusgit add README.mdgit commit -m “修改readme.md”git push -u origin masterDockerdocker b...原创 2020-02-07 18:54:24 · 197 阅读 · 0 评论 -
VSCode操作记录
进入全屏和退出全屏F11VSCode详细使用教程包含功能:汉化自动闭合HTML/XML标签自动完成另一侧标签的同步修改Beautify(格式化html,js,css)…远程调试...原创 2020-01-17 14:54:43 · 2068 阅读 · 0 评论 -
websocket 初识
定义:websocket是html5提供的一种在单个TCP连接上进行全双工通讯的协议。在 WebSocket API 中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输。优点:更好的节省服务器资源和带宽。属性:socket.readyState 只读属性readyState表示连接状态,可以是以下值:0-表示连接尚未建立;1-表示连接已建立,...原创 2020-01-06 20:21:21 · 268 阅读 · 0 评论 -
Window10下通过Dockerfile 构建Python
(1)Windows 文件夹目录结构如下(此时myapp为空目录):(2)Dockerfile内容如下:FROM python:3.6.0MAINTAINER dengCOPY requirements.txt requirements.txtRUN pip install -i https://pypi.douban.com/simple -r requirements.txt(...原创 2019-12-23 15:03:30 · 819 阅读 · 0 评论 -
Window10下Docker安装和使用
1 安装Window10专业版下Docker安装方法注意安装完毕后开启镜像加速。2 使用打开cmd执行(1)拉取最新版的 Ubuntu 镜像: docker pull ubuntu也可到访问 Ubuntu 镜像库地址。可以通过 Sort by 查看其他版本的 Ubuntu。默认是最新版本 ubuntu:latest 。 拉取其他版本的ubuntu镜像。(2)查看本地镜像:do...原创 2019-12-23 13:52:17 · 172 阅读 · 0 评论 -
Windows下Redis的基本操作 + Python操作Redis
神奇: 客户端与Redis建立连接后会自动选择0号数据库,不过可以随时使用SELECT命令更换数据库。首先Redis不支持自定义数据库的名字,每个数据库都以编号命名,开发者必须自己记录哪些数据库存储了哪些数据。1 启动/停止(1)打开cmd,如果配置系统的环境变量,直接输入 redis-server.exe redis.windows.conf 便可启动redis服务器。 (后面的redis....原创 2019-12-20 14:47:16 · 151 阅读 · 0 评论 -
服务器上docker命令行操作
docker状态# 查看docker状态docker ps# 查看docker容器历史日志docker logs $CONTAINER_ID# 实时查看docker容器前10条日志docker logs -f -t --tail 10 $CONTAINER_IDdocker操作docker start/stop/restart $CONTAINER_ID容器信息|...原创 2019-12-18 18:15:13 · 201 阅读 · 0 评论 -
服务器上mongo命令行操作
连接mongomongo -port 【你安装的端口号】查看databases和collectionsshow databases; use db_name; # 切换数据库实例show collections查询数据db.col.find() # 返回名为col的collection下的所有数据db.col.find().pretty() # 返...原创 2019-12-18 16:21:37 · 273 阅读 · 0 评论 -
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 29: illegal multibyte sequence
1 读取时open('xx.txt' , encoding='UTF-8') 后面加上编码格式2 python2升级到python33 将pycharm的file encoding 改为 UTF-8原创 2019-08-31 00:10:38 · 4559 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'pip'
1 问题2 解决原创 2019-08-29 22:14:17 · 372 阅读 · 0 评论