自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 机器学习 | 算法模型 —— 算法训练:损失函数之交叉熵(熵/相对熵/KL散度/sigmoid/softmax)

目录 1.信息论 1.1.信息量 1.2.熵 1.3.KL散度(相对熵) 1.4.交叉熵 2.交叉熵的类型 2.1.多分类交叉熵 2.2.二分类交叉熵 3.学习过程(以二分类为例) 3.1.第一项求偏导 3.2.第二项求偏导 3.3.第三项求导 3.4.计算结果 1.信...

2020-07-10 17:36:38 9 0

原创 机器学习 | 特征工程 —— 降维:PCA(主成分分析)
原力计划

1.数学原理 1.1.【参考博客】 https://www.cnblogs.com/xinyuyang/p/11178676.html 1.2.【精简描述】 PCA实际上是将含有冗余特征的高维空间数据集投影到地位空间中,在保证信息量的同时,对数据集冗余特征进行筛选。而投影的关键就在于确定...

2020-07-04 12:54:08 90 0

原创 机器学习 | 算法模型 —— 聚类:FCM模糊聚类算法

1.FCM模糊聚类原理 模糊c均值聚类FCM算法融合了模糊理论的精髓,相较于k-means的硬聚类,FCM算法(Fuzzy C-Means,FCM)提供了更加灵活的聚类结果。因为大部分情况下,数据集中的对象不能划分成为明显分离的簇,将一个对象划分到一个特定的簇有些生硬,不符合人的客观认知。因此...

2020-07-03 19:57:36 36 0

原创 网络爬虫 | 猫眼电影最受期待榜信息抓取 —— 基于multiprocessing / re(多进程/正则表达式)

import re import requests from requests.exceptions import RequestException import multiprocessing import random headers = {'User-Agent': ...

2020-07-02 18:24:52 108 0

原创 python3__进程__分布式进程

1.task_mater.py 在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程,其中manager...

2020-06-29 18:04:48 87 0

原创 python3__零散问题处理

目录 1.dataframe中可迭代元素因长度不同修改时报错的问题 1.dataframe中可迭代元素因长度不同修改时报错的问题 原始代码:将商品标题对应特征词列表转换为向量并重新赋值 for i in range(itemsData.shape[0]): w...

2020-06-09 16:33:01 68 0

原创 网络爬虫 | 腾讯招聘信息采集——基于Python中Scrapy框架

1.爬虫项目工具:①PyCharm集成开发环境②Google浏览器③Google浏览器插件:xpath helper, json viewer视图插件2.命令行scrapy重要参数:①check : 检查项目,并由crawl返回②crawl : 运行爬虫抓取数据③edit :通过编辑器编辑爬虫文件...

2020-05-18 15:52:15 250 2

原创 网络爬虫 | 京东全站数据采集(类目、店铺、商品、评论)——基于Python中Scrapy框架
原力计划

123

2020-05-11 18:12:53 341 7

原创 论文|翻译——Xi an Jiaotong University (Xi ZHAOs research summary)
原力计划

1.作者简介 【姓名】:赵玺 【个人主页】:http://som.xjtu.edu.cn/info/1014/3587.htm 【研究方向】:大数据驱动的行为理论、行为分析和仿真;基于大数据行为的决策支持;人工智能与深度学习;区块链 2.近期学术论文 [1]位置推荐 [1]A c...

2020-05-07 23:53:51 73 0

转载 数学分析|最优化——梯度下降法、牛顿法、拟牛顿法等

1.最优化问题分类 按照约束条件分,可以分为:无约束优化问题、有不等式优化问题、有不等式优化问题。 按照是否线性,可以分为线性优化问题(目标函数和约束均线性)、非线性优化问题(目标函数和约束中任意部分非线性)。 按是否凸,可以分为凸优化问题、非凸优化问题。 对于有约束优化问题,常见的做法...

2020-04-20 19:02:05 276 0

原创 图论 | 无向图 —— 二部图/二分图
原力计划

123

2020-04-10 11:01:47 119 0

原创 MongoDB | 运算符 —— 查询(query)与投影(projection)运算符 (16.1)

目录 1.比较运算符 2.逻辑运算符 3.元素查询运算符 4.求值查询运算符 5.地理空间查询运算符 6.数组查询运算符 7.按位查询运算符 8.投影运算符 1.运算符 1.1.查询(query)与投影(projection)运算符 1.1.1比较运算符 查询操作符 ...

2020-03-27 13:42:37 86 0

原创 MongoDB | 基本概念 + 数据类型(二)

1.基本概念 1.1.数据库(database) 1.1.1.基本性质 ①一个MongoDB中可建立多个数据库 ②默认数据库为“db”,且存储在“data”目录当中 ③单个实例可容纳多个独立的数据库,每一个都有自己的集合和权限,不同的数据库也放置在不同的文件中 1.1.2.基本操作...

2020-03-26 18:33:53 71 0

原创 MongoDB | 概述(一)

1.MongoDB概述 MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能,其旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)...

2020-03-25 16:53:59 138 0

原创 推荐系统 | 重排序 —— 贝叶斯个性化排序(Bayesian Personalized Ranking, BPR)

1.“排序推荐算法”分类 2.贝叶斯个性化排序(Bayesian Personalized Ranking, BPR) 2.1.应用场景 传统的近邻协同过滤推荐算法的核心思想是基于现有“用户-商品评分矩阵”计算用户之间的相似度,并通过评分预测公式对整个矩阵中的缺失评分进行预测,并依据评...

2020-03-17 10:49:52 173 0

原创 论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)

待整理

2020-03-13 10:52:19 61 0

原创 假设检验 | 非参数假设检验 —— KS检验

1.概述 KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法,是针对连续分布的检验。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定理论分布相比较,如果两者间差距较小,则推断该样本取自某特定分布簇),双样本的KS检测比较两个数据集的累积分...

2020-03-12 18:44:50 502 0

原创 论文 | 翻译 ——A Novel K-medoids clustering recommendation algorithm……(2019:协同过滤RS)
原力计划

123

2020-03-10 18:24:58 86 0

原创 推荐系统 | 协同过滤 —— 矩阵降维SVD/SVD++

目录 1.特征值分解(EVD) 1.1.实对称矩阵(也可为方阵) 1.2.一般矩阵 2.奇异值分解(SVD) 2.1.奇异值分解定义 2.2.奇异值求解 2.3.数学引例 2.4.图像压缩应用(Python) 2.5.协同过滤推荐系统中矩阵分解应用 3.SVD++ 3.1. ...

2020-03-07 12:20:53 232 0

原创 论文 | 翻译 ——Resolving data sparsity and cold start problem in collaborative filtering ……(2019:协同过滤RS)
原力计划

0.专有词汇 data sparsity: 数据稀疏 cold start : 冷启动 matrix factorization : 矩阵分解 knowledge base : 知识库 accuracy : 准确性 1.论文摘要

2020-03-06 09:57:04 142 0

原创 MongoDB数据库和可视化工具Studio 3T的安装及问题调试

MongoDB的安装及测试 1.官网下载数据库(.msi格式文件,并非.zip文件) https://www.mongodb.com/ 2.按照提示一步步安装,注意:不要勾选“Install MongoDB Compass”,否则影响安装速度 3.配置Win10环境变量: ...

2020-02-22 15:24:32 278 0

原创 python3_anaconda包管理工具使用(命令行)_详解

以下所有命令均在Anaconda Prompt命令行运行: <一>管理anaconda 1.conda --version:查看anaconda版本 2.conda update conda:升级anaconda <二>管理环境 1.conda cr...

2020-02-17 17:14:20 99 0

原创 《孙子兵法》——读书笔记

计篇第一 知己知彼 【原文】:故经之以五事,校之以计,而索其情。一曰道,二曰天,三曰地,四曰将,五曰法 【理解】:道义(君主要得民心,让民众和君主心意相通,这样军士们才有同生共死的信念) 天时(影响事情结果的不可控因素:天气等) 地形(地理形势,指那...

2019-11-01 20:35:43 182 0

原创 机器学习 | 算法模型——自然语言处理:Word2Vector - CBOW和Skip-gram

1.Word2Vector基本思想 word2vector已经成为NLP领域的基石算法,其从大量的文本预料中以无监督学习语义只是的一种模型,该模型主要包含两种算法CBOW(continuous bag-of-words)和skip-gram. ...

2019-10-30 20:41:19 157 0

原创 Google浏览器截图方法

1.2019年10月8号入职京东实习,在实习的过程中需要用到一个技能,特整理如下:(Google浏览器滚动截图的方法) (1).Fn+F12(F12或右上角"三点标志"->更多工具->开发者工具) 进入Google浏览器开发者模式 (2)Ctr...

2019-10-12 09:23:23 98 0

原创 线性代数思维导图

2019-08-28 15:22:41 2564 27

原创 TensorFlow__Slim的使用(TensorFlow的精简版)

TensorFlow-Slim使用方法原文 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slim TensorFlow-Slim使用方法说明 https://www.cnblogs.com/h...

2019-08-22 11:28:40 85 0

原创 认知物理学思维导图

2019-08-12 17:18:27 191 0

原创 认知心理学思维导图

2019-08-12 17:14:29 233 0

原创 博弈论思维导图

2019-08-12 17:10:04 528 0

原创 windows xp系统本地磁盘图标发生变化——5种解决方法

方法之一:重置盘符 1.因盘符错乱引起图标异常的情况最多,也是最容易解决的,解决方法是重置一下盘符,具体方法:在”我的电脑“上右键,选择”管理“。 2.进入管理窗口后,在左侧选择”磁盘管理“,转到右侧,从中选择图标异常的磁盘,如资料磁盘D,右键,选择“更改驱动器名和路径”这一项。 3.进入...

2019-07-08 17:30:33 199 0

原创 python3__机器学习__朴素贝叶斯分类

1.概述 贝叶斯分类是机器学习分类算法中的一类,此类算法的理论依据为“贝叶斯定理”和“特征条件独立”,而朴素贝叶斯分类(Naive Bayes Classifier, NBC)是贝叶斯分类中最简单的一种,也是常见的一种分类方法。 优点:其相比于决策树分类有着坚实的数学基础以及稳定的分类效率(...

2019-07-08 16:45:57 73 0

原创 机器学习 | 分类 —— 决策树:分支标准(熵/Gini系数)

1.Gini系数 设pk为节点S包含的K个不同的类别的数据记录所占的比例,则结点S的基尼系数G(S)定义如下: 基尼系数位于[0,1]区间,数字越小表明区分度越大。一次划分的整体基尼系数等于划分得到的孩子节点的基尼系数的加权平均,且权值被定义为孩子节点包含的数据量。因此,如果S1和S2为...

2019-06-23 09:00:06 488 0

原创 距离(相似度)计算方法

1.闵式距离 又叫做闵可夫斯基距离,是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。闵可夫斯基距离公式中,当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离;当时,即为切比雪夫距离。 2.欧式距离 欧几里得度量(euclidean me...

2019-06-21 20:37:52 532 0

原创 python3__Scipy__积分/最小二乘/图像变换

SciPy是numpy库基础之上增加了众多的数学、科学以及工程计算中常用函数的库。SciPy库依赖于numpy,提供了便捷且快速的n维数组操作。SciPy库的构建与numpy数组一起工作,并提供了许多友好和高效的处理方法。包括:统计、优化、整合以及线性代数模块、傅里叶变换、信号和图像图例,常微分方...

2019-06-01 17:22:41 77 0

转载 python3__深度学习__受限玻尔兹曼机

1.什么是受限玻尔兹曼机 玻尔兹曼机是一大类的神经网络模型,但是在实际应用中使用最多的则是受限玻尔兹曼机(RBM)。受限玻尔兹曼机(RBM)是一个随机神经网络(即当网络的神经元节点被激活时会有随机行为,随机取值)。它包含一层可视层和一层隐藏层。在同一层的神经元之间是相互独立的,而在不同的网络层...

2019-05-30 09:50:06 266 0

原创 python3__pandas__预处理常用操作

1.pandas预处理的常用操作 链接的文章已经讲解的相对比较清楚了,包括: (1)缺失值处理:dropna(),fillna() (2)离散化:cut(),qcut() (3)分组聚合:groupby() (4)数据透视表:pivot_table() (5)排序:sort_valu...

2019-05-29 14:08:28 98 0

原创 python3__深度学习__过拟合/欠拟合的处理

1.过拟合定义+处理 1.1 过拟合概述(低偏差,高方差) 定义:过拟合简单的描述就是在训练集上的表现很好,但在未见过的测试集上的表现却较差。专业一点的定义就是:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'也属于H,使得在训练样例上h的错误率小于h'...

2019-05-23 09:12:51 284 0

翻译 认知科学__认知物理学__粗糙集理论(Rough理论)

1.粗糙集的来源(定义) 面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述?什么是细线条描述?糙集合论回答了上面的这些问题 2.基本概念 2.1 知识 一种对集合A的划分就对应着关于A中元素的一个知识。 假设...

2019-05-02 11:18:32 100 0

原创 python3__深度学习__卷积神经网络(CNN):VGGNet / Finetuning

VGGNet是于ICLR 2015(International Conference on Learning Representations, 2015)上展示的一种新的卷积神经网络,在ImageNet上达到了非常高的辨识率,且能够在以DCNN(Deep Convolutional Network...

2019-04-21 20:49:52 151 0

提示
确定要删除当前文章?
取消 删除