自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

马行处的博客

如有不足,请大家多多包涵

  • 博客(156)
  • 资源 (14)
  • 收藏
  • 关注

原创 conda config --set report_errors false

换回默认镜像conda config --remove-key channels。

2024-03-18 14:51:52 110

原创 聚类算法概念复习

聚类算法基本概念复习

2022-10-28 09:38:25 601 1

原创 机器学习概念复习版

机器学习概念复习及面试

2022-10-24 14:24:58 1012

原创 遗传算法理解

最近有个项目,需要做启发式算法的最优解,所以想用遗传算法解决。遗传算法,遗传就是生物学里的继承关系。从父辈,祖辈不断的继承和变异基因,从石器时代的石头变成现在的便携式电脑,从大哥大到苹果13promax。 从60hz 到120hz。代表了每个时代的适应性和变革性。如图一 遗传算法流程图图一第一步 Initialization初始化解释:随机产生多个物种,万物混沌,有恐龙有天上飞的,地下跑的,生物多样性达到了巅峰第二步Fitness适合度解释:由于环境要求及变化,万

2022-02-24 11:04:45 281

原创 TF-IDF 通俗解释

特征提取名词解释1.特征提取对应着特征项的选择和特征权重的计算。2.特征项的选择就是指根据某个评价指标独立的对原始特征项(词语)进行评分排序,从中选取得分最高的一些特征项,过滤掉其余的特征项。3.特征权重的计算:主要思路是依据一个词的重要程度与类别内的词频成正比(代表性),与所有类别中出现的次数成反比(区分度)。基于统计的特征提取方法(构造评估函数)TF-IDF词频(TF)公式= 某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)公式 = log(语料库的文档总数

2021-11-15 15:33:29 1189

原创 解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.问题

import osos.environ["CUDA_VISIBLE_DEVICES"] = "True"os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'可以翻译这句话:CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.出现的是GPU版本和pytorch适用的问题。已经解决了...

2021-07-19 09:54:15 1249 1

原创 pandas处理数据多方式(2)

删除某列指定值所在的行 count 为列名,【1】代表数值e_s = e_s[~e_s['count'].isin([1])]

2021-04-09 13:37:54 131

原创 pandas 处理数据的多方式(1)

持续更新中

2021-03-31 14:45:15 173

原创 正负样本

机器学习:二分类问题:laber :0 负样本laber:1 正样本深度学习:目标检测负样本:与识别目标相反的数据,样本正样本:需要识别的主体目标样本困难样本:预测时与真值标签误差较大的样本简单样本:预测时与真值标签误差较小的样本...

2020-12-10 11:17:42 691

原创 windows10 sqlserver导入sql脚本文件

数据库名称和脚本内的use[数据库一致]sqlcmd -S localhost -U sa -P 自己密码 -d 自己数据库 -i D:\script.sqlGO

2020-12-04 16:13:06 695

原创 EXCEL打开utf-8存储方式的文件会出现乱码

原因:因为EXCEL 2个字节储存。utf-8 1个字节的存储方式,所以EXCEL直接打开时会出现乱码。小文件可以加BOM解释:BOM 是 Byte Order Mark 的缩写,EXCEL自动直接识别出编码。

2020-12-03 14:37:08 1874

原创 用余弦算法做相似度匹配

前面写了一个用simhash 做算法相似度匹配。我觉得俩个算法都可以,但是一定要实践证明算法的稳定性,和模型的准确度。因为开发比较急,所以没有去验证关键词加simhash 的具体准确情况,但是依据我来看会很不错。后期我们上线的是余弦算法的相似度匹配。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。参考网上demo:def similarity(s1, s2): try:

2020-05-09 18:24:24 1373 4

原创 用simhash 去做相似度匹配

前期项目需求需要做一个千万级的文章,新闻类的匹配,周期近20天左右,前半月用simhash 做的算法,从网上和一些博客看到一些资料,经过自己的整理和规划,准备自己出一半simhash 的算法项目服务器:就这个!cat /proc/cpuinfoprocessor : 0vendor_id : GenuineIntelcpu family : 6model : 63model name : Intel(R) Xeon(R...

2020-05-09 18:12:22 1583 4

原创 python 字符串转json 中将单引号设置成双引号。细节

str_UID = str_UID.replace("'", '"' ) 完美替换。。。。。。。

2020-04-28 18:40:02 6988 3

原创 python dataframe转为dict 并自定义索引

原始格式:dataframe转换自定义索引可以把user_id作为索引设置自己的格式:代码片段:data_obj = pd.read_sql(sql_obj, conn)data_obj = data_obj.set_index('user_id')print(data_obj)dict_obj = data_obj.T.to_dict()print(dict_o...

2020-04-26 15:39:26 2456

原创 linux python 3.7 安装psycopg2

(base) [root similair]# pip install psycopg2-binaryLooking in indexes: http://mirrors.aliyun.com/pypi/simple/Collecting psycopg2-binary Downloading http://mirrors.aliyun.com/pypi/packa3f464485d957...

2020-04-22 20:11:55 3507

原创 文章推荐系统(1)

用ItemCF和userCF用户行为数据简介积极行为:用户明确表示对物品喜好的行为。评分、喜欢、不喜欢。包括:collect、share、like、attention(关注)隐形行为:不能明确反应用户喜好的行为。比如页面浏览。view、buy、post(f发布)最后会有思维导图来决定业务流程。欢迎关注。...

2020-04-22 14:34:44 364

原创 召回率,精确率和F平均值,浅谈

精确率:700 / (700 + 200 + 100) = 70%公式:召回率 = 700 / 1400 = 50%公式:F值 = 70% * 100% * 2 / (70% + 100%) = 82.35% 备注:F 值即为正确率和召回率的调和平均值。...

2020-04-21 19:50:56 1000 2

原创 mysql 没有主键id,删除重复数据

=删除重复数据,先追加自增 idALTER TABLE `simi_lar` ADD `id` INT ( 1 ) NOT NULL AUTO_INCREMENT,ADD INDEX `id` ( `id` );=删除重复数据DELETEFROM `simi_lar` USING `simi_lar`, ( SELECT DISTINCT...

2020-04-20 09:39:23 2265 1

原创 hanlp 安装(python3.7版本)

pip install pyhanlp# -*- coding:utf-8 -*-from pyhanlp import *text = "中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、" \ "命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。" \ "不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,...

2020-04-07 16:25:00 2928

原创 403 POST /api/contents (::1): Permission denied: Untitled.ipynb

上传文件jupyter notebook 显示权限不够的问题403 POST /api/contents (::1): Permission denied: Untitled.ipynb可以用命令 到windows cmd 下:jupyter notebook --allow-root --generate-config得知你的jupyter_notebook_conf...

2020-03-30 10:21:38 2160 2

原创 cv2.error: OpenCV(3.4.7) D:\Build\OpenCV\opencv-3.4.7\modules\highgui\src\window.cpp:366: error: (-2

Traceback (most recent call last): File "C:/project/ztplan/renlian/test1.py", line 4, in <module> cv2.imshow('image',img)cv2.error: OpenCV(3.4.7) D:\Build\OpenCV\opencv-3.4.7\modules\high...

2019-09-24 16:00:52 4342 1

原创 tensorflow 解决 ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we

解决:ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.安装pip instal...

2019-09-24 13:58:43 9222 5

原创 Could not install packages due to an EnvironmentError

ERROR: Could not install packages due to an EnvironmentError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Max retries exceeded with url: /packages/57/22/3a709462eb02412bd1145f6e53604...

2019-09-02 09:47:21 861

转载 git回滚到之前提交的某个版本

先显示提交的记录:git logcommit e499aac9257354c54ac2e1ff6a393ac7c8d2f342Author: xx <[email protected]>...... 1 2 3 4回到指定版本:git reset --hard e499aac9257354c54ac2e1ff6a393ac7c8d2f3421强制提交:g...

2019-08-30 17:05:15 2217

原创 对数据整体清洗完整版

数据形式:需要计算同一国家下的数据量,合并所有国家为一列,并计算一个内购买量。三个数据集都是以下的形式:步骤:1:合并多列为一列,create_time 不变2:三个文件合并为一个文件 按时间,国家 分组,合并重复项。3:看似简单,其实三个csv除了国家之外,其他的都不一致。三个统计的维度也不是一样的附代码:def all_any(): # cnews...

2019-08-21 09:21:49 479

转载 Python Pandas 做数据分析之玩转 Excel 报表分析

各位朋友大家好,非常荣幸和大家聊一聊用 Python Pandas 处理 Excel 数据的话题。因为工作中一直在用 Pandas,所以积累了一些小技巧,在此借 GitChat 平台和大家分享一下心得。在开始之前我推荐大家下载使用 Anaconda,里面包含了 Spyder 和 Jupyter Notebook 等集成工具。到百度搜索一下就可以找到官方下载链接,下载个人版就可以(本文使用的 P...

2019-08-16 15:53:02 11114 3

转载 会用这36个函数,小白也能入门数据分析

会用这36个函数,小白也能入门数据分析Python之禅今天作者 | 蓝鲸网站分析博客来源|http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用Excel做分析但不太会用Python分析的。如果和你...

2019-07-25 11:02:43 251

转载 SQL中GROUP BY用法示例

概述GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类似Excel里面的透视表。GROUP BY必须得配合聚合函数来用,分组之后你可以计数(COUNT),求和(SUM),求平均数(AVG)等。常用聚合函数count() 计数 sum() 求和 avg() 平均数 max...

2019-07-19 13:30:12 333

转载 Python绘图之matplotlib基本语法

  博客地址:http://www.cnblogs.com/yudanqu/  Matplotlib 是一个 Python的 2D绘图库,通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。当然他也是可以画出3D图形的,这时就需要安装更多的扩展。相比MATLAB来说,python不需要那么大的安装包,而且最重要的是开源的,在这...

2019-07-19 09:31:46 7128

转载 北京NIKE ADIDAS 折扣店/工厂店总结

马连道店位于宣武区马连道路家乐福对面,也就是著名的茶叶街内,很好找~坐BUS有349,414,46,609,708。马连道和青年路两家都是nike直营的,建议先去这两家。青年路店位于朝阳区青年路,东四环慈云寺桥一直往东(朝阳路),朝阳路与青年路的交口,过了华堂再过一个铁路桥就到了,一层有一個KFC,方便大家逛街之后的休息。nike工厂店在二层,一层与三层呢还有一些品牌衣服店。BUS太多了...

2019-07-18 17:22:49 1874

原创 ETL

ETL是Extract”、“ Transform” 、“Load”三个单词的首字母缩写分别代表了抽取、转换、装载、是数据仓库中重要的一环、ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,抽取将数据从各种原始的业务系统中读取出来,这是所有工作的前提。转换按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。1.装载将转换完的数据按计划增量或全...

2019-07-17 10:09:59 832

原创 Scrapy安装报错:Microsoft Visual C++ 14.0 is required

当前环境win7,python_3.6.0,64位。在windows7下,在dos中运行pip install Scrapy报错:building 'twisted.test.raiser' extensionerror: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build ...

2019-04-20 11:33:51 180

原创 反爬的方式

1.不返回网页,如不返回内容和延迟网页返回的时间2.返回数据非目标网页,如返回错误页,返回空白页和爬去多页时均返回同一页3.增加获取数据的难度,如登陆才可以查看和登陆时设置验证码...

2019-04-17 15:46:42 216 1

原创 mongodb安装使用

下载mongodbhttps://www.mongodb.com/download-center/community安装complete完整版,默认路径C:\Program Files\MongoDB\Server\3.4\bin在C盘创建db数据库和log日志C:\data\logC:\data\db跳转路径到binC:\Program Files\Mongo...

2019-04-15 11:05:47 273

转载 User-Agent大全

一、基础知识篇:Http Header之User-AgentUser Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访...

2019-04-13 10:34:24 47656

原创 date,datetime和timestamp数据类型有什么区别

一个完整的日期格式如下:YYYY-MM-DD HH:MM:SS[.fraction],它可分为两部分:date部分和time部分,其中,date部分对应格式中的“YYYY-MM-DD”,time部分对应格式中的“HH:MM:SS[.fraction]”。对于date字段来说,它只支持date部分,如果插入了time部分的内容,它会丢弃掉该部分的内容,并提示一个warning。timestamp和d...

2019-04-11 18:25:02 20540

原创 varchar(50)中50的涵义

最多存放50个字符,varchar(50)和(200)存储hello所占空间一样,但后者在排序时会消耗更多内存,因为order by col采用fixed_length计算col长度(memory引擎也一样)。在早期 MySQL 版本中, 50 代表字节数,现在代表字符数。...

2019-04-11 18:22:31 10932

原创 http状态码

2开头 (请求成功)表示成功处理了请求的状态代码。200 (成功) 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。 201 (已创建) 请求成功并且服务器创建了新的资源。 202 (已接受) 服务器已接受请求,但尚未处理。 203 (非授权信息) 服务器已成功处理了请求,但返回的信息可能来自另一来源。 204 (无内容) 服务器成功处理了请求,但没有返回任何内容。 205 (重...

2019-04-11 18:10:33 277

原创 python选择排序

选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,所以称为:选择排序设第一个元素为比较元素,依次和后面的元素比较,比较完所有元素找到最小的元素,将它和第一个元素互换 重复上述操作,我们找出第二小的元素和第二个位置的元素互换,以此类推找出剩余最小元素将它换到前面,即完成排序 def ...

2019-04-11 14:49:01 149

linux介绍.xmind

清晰介绍linux思维导图各模块,可以快速定位自己不同的地方,和整体架构。

2021-06-07

县级以上行政数据包含经纬度.zip

县级以上经纬度数据,仅供参考,仅运用个人使用。mysql数据库使用。

2021-01-12

中文情感词典.rar

中文情感词典,有正负情感的关键词等信息,可以供大家识别模型中词性

2020-12-15

NLP算法相关各行业中文词库.zip

NLP分析必备词库之一,可以看看,各种行业的词库都有

2020-12-15

mysql优化.xmind

可以系统学习mysql 整体优化方案,自己也可以根据框架找一些知识了解,内容很丰富。

2020-04-02

china_stop

中文停词自己整理的2000多个词汇

2020-03-27

mysql-connector-java

mysql connector jar包。

2019-02-27

ntp centos7 rpm

ntp rpm包,用于节点的时间同步,可以避免安装失败。

2019-02-27

PMP(PMBOK第六版)

PMP(PMBOK项目管理书,可以看看其中一些知识体系结构)

2018-11-15

吴恩达机器学习和深度学习笔记

吴恩达的机器学习文档!好资源不容错过

2018-09-20

Postgresql 配置文件1(connpsy-inl)

postgresql配置文件。。(connpsy-inl)

2018-09-04

WordCloud 下载

windows 64位系统下载 python3以上版本。。

2018-07-23

疝气病数据集逻辑回归

机器学习实战数据集def loadDataSet(): 3 dataMat = [] ; labelMat = [] 4 fr = open('testSet.txt') 5 for line in fr.readlines(): # 对文件的数据进行按行遍历 6 lineArr = line.strip().split() 7 dataMat.append([1.0, float(lineArr [0]), float(lineArr[1])]) 8 labelMat.append(int(lineArr[2])) # 数据的类别号列表丰富

2018-07-18

vim安装步骤

vim yum安装步骤

2017-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除