自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (9)
  • 收藏
  • 关注

原创 文本领域分类中的词嵌入方法-BOW

接下来以第一句话" I love cats."为例,该句话中词典中的单词分别为"I", "love", "cats",所以我们可以用一个向量表示这句话为[1, 1, 1, 0, 0, 0, 0, 0],向量的每个维度对应词典中的一个单词,如果该维度对应的单词在句子中出现,则值为1,否则为0。在这个例子中,词典可能包含的单词有:I, love, cats, dogs, too, and, are, cute. 接下来,我们将每个句子转换为一个向量,向量的长度等于词典中单词的数量。

2023-07-22 19:22:56 121

原创 数据科学中使用的17 种相似性和相异性度量之欧氏距离

在数据科学中,相似性度量是一种衡量数据样本如何相互关联或相互接近的方法。另一方面,相异性度量是告诉数据对象有多少是不同的。此外,当相似的数据样本被分组到一个集群中时,这些术语通常用于聚类。所有其他数据样本被分组到不同的样本中。它还用于分类(例如 KNN),其中根据特征的相似性标记数据对象。另一个例子是当我们谈论与其他数据样本相比不同的异常值时(例如,异常检测)。相似性度量通常表示为一个数值:当数据样本越相似时它就越高。它通常通过转换表示为零和一之间的数字:零表示相似度低(数据对象不相似)。

2023-05-14 21:38:24 598

原创 一种新的、更好的生成相识度图的方法

本文会比较用经典的方法和新的方法分别得到的相似度图,看看两者的区别。这里使用阿托伐他汀(立普妥)和罗苏伐他汀(Crestor)这两种药物的摩根指纹为例。

2022-09-27 10:08:12 329

原创 Open Babel下载安装

OpenBabel是一个促进化学数据从一种格式到另一种格式的相互转换的项目——包括各种类型的文件格式。简而言之,OpenBabel是Babel化学文件翻译程序的免费开源版本。OpenBabel是一个旨在从Babel中断的地方接手的项目,它是一个跨平台程序和库,旨在在分子建模、计算化学和许多相关领域中使用的许多文件格式之间进行相互转换。OpenBabel包括两个组件,一个命令行实用程序和一个C++库。...

2022-07-18 23:35:13 3470

原创 MIT博士论文《用于临床实验和精准医学的机器学习》

标题:Machine learning for clinical trials and precision medicine创作者/贡献者:Author/CreatorLiu, Ruishan, author.ContributorZou, James, degree supervisor.Soh, H. Tom, degree committee member.Tse, David, degree committee member.Stanford University. Department

2022-07-09 17:56:18 675

原创 RDKit|突出分子差异

目录1. 导入相关包2. 两种高亮方式方法一:通过子结构匹配进行高亮方法二:直接高亮指定的原子编号3. 高亮分子的不同子结构 如果出现导入失败,请先安装RDKit,'pip install RdKit’即可。输出:图1 高亮分子子结构图根据方法一打印出来的原子编号,在方法二中使用该原子编号。​​​​​​​图2 方法二高亮分子子结构图图1和图2,标记出的分子子结构是一样的,可想而知,两种方法都能够达到同样的效果。但是方法一更简单直观。定义两种分子并可视化:​​​​​​​图3

2022-07-09 16:30:59 506

原创 RDKit|广义子结构搜索

在这篇文章中,我将展示如何将所有这些结合起来使用 RDKit 进行“广义子结构搜索”。在文章的底部,有几个 Python 函数可以在其他脚本中使用,以使这个过程更容易。我还将尝试找出一种将其纳入未来 RDKit 版本的好方法。举个例子,这里有一个查询:这里有四个使用该查询返回的 ChEMBL 分子:目录:1. 导入相应包和数据2. 定义查询目标3. 链接节点 + 变量附件 + 互变异构体枚举查询示例:加载数据:​​​​​​​2. 定义查询目标​​​​​​​

2022-07-08 09:55:13 422

原创 RDKit分子的3D结构

RDKit MCS代码的功能之一是在生成MCS时将原子坐标考虑在内,这一点可能不太为人所知。这里的想法是找到一组3D分子之间的MCS,其中考虑了潜在匹配原子之间的距离。2、读取小分子的SDF格式并可视化获取更多关于“RDKit”知识,请关注AIDD Learning,微信公众号同名。AIDD learning 便捷查看...

2022-07-07 08:00:00 506

原创 RDKit新手入门

RDKit介绍、安装、简单可视化和相似性搜索

2022-07-06 18:04:54 2004

原创 Win10无线网络图标不见了,看这一条就行。

Win10无线网络图标不见了怎么办?我把网上所有的方法都试了一遍,还是没有用!这个时候该怎么办? 在“设置”—“恢复”—“立即重新启动”,这个时候电脑会立即启动。启动的时候会有两个选项,“保留我的文件”OR“删除所有内容”,这个时候要选择“保留我的文件”,这样的话大部分应用不会消失掉。 电脑重新启动之后,WIFI标识就出现啦,这时候就能正常联网啦! 电脑开启后,有个不良反应就是,Office的那些软件不见了,这个时候你只要重装就好啦。本教程建议你在使用其它教程无果时使用。...

2022-07-06 11:43:02 2726 1

原创 MIT博士论文《用于药物发现的分子图表示学习和生成》

探索了一种用于分子表示的变压器式架构,远离传统的图神经网络范式,提供了将这些模型应用于图形结构对象的新工具。

2022-06-29 15:18:06 548

原创 机器学习——回归

2021-07-15 09:37:09 64

原创 机器学习技术介绍

2021-07-12 22:35:51 1239

原创 WARNING: You are using pip version 20.0.1; however, version 21.1.2 is available.

pip更新方法(失败了一般用换一种方法就解决了)1,使用python -m pip install --upgrade pip升级失败2,使用python -m pip install -U --force-reinstall pip依然失败3,使用pip install --user --upgrade pip成功升级

2021-06-17 12:04:53 490

原创 Excel如何将某个特定值变为空值

之所以会有这个问题,是因为在pandas数据处理时,它只能对缺失值做处理,对于我们excel表中的0值(pandas中的缺失值)处理很难。故,如何把0值变成空值呢?在网上找了方法,很鸡肋。现给出自己的方法。这样的话就可以将0值置换成空值咯。...

2021-05-13 21:25:55 3153

转载 task4—模型建立与调参

建模与调参1、学习目标了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程2、内容介绍3、相关原理介绍与推荐3.1 线性回归模型https://zhuanlan.zhihu.com/p/494803913.2 决策树模型https://zhuanlan.zhihu.com/p/653047983.3 GBDT模型https://zhuanlan.zhihu.com/p/451458993.4 XGBoost模型https://zhuanlan.zhihu.com/p/86816

2021-04-21 11:04:24 327 1

原创 [二手车价格预测]task3-特征工程

特征工程1、特征工程目标对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析,并对数据进行一些图标或者文字总结并打卡2、内容介绍3、代码示例#3.1导入数据import pandas as pdimport numpy as npimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom operator import itemgetter%matplotlib inline

2021-04-19 10:56:33 176

原创 二手车价格预测---数据分析

一、代码示例#1.1载入各种数据库科学以及可视化库!pip show matplotlibName: matplotlibVersion: 3.0.3Summary: Python plotting packageHome-page: http://matplotlib.orgAuthor: John D. Hunter, Michael DroettboomAuthor-email: matplotlib-users@python.orgLicense: PSFLocation: .

2021-04-16 21:44:42 1417

原创 二手车接个预测——task01赛题理解

一、代码示例#1、数据读取pandasimport pandas as pdimport numpy as nppath='./data/'##1)载入训练集和测试集(一般测试集和训练集不是人为分的)Train_data = pd.read_csv(path+'train.csv', sep=' ')Test_data = pd.read_csv(path+'testA.csv', sep=' ')print('Train data shape:',Train_data.shape)pr

2021-04-13 21:23:50 107 2

转载 特称工程是什么?

目录1特征工程是什么2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4 互信息法3.2 Wrapper3.2.1 递归特征消除法3.3 Embedded3.3.1 基于惩罚项的特征选择法3.3.2 基

2021-04-01 11:31:47 173

原创 创建新环境后,如何在Jupyter Notebook中使用新环境?

目录第一步:打开cmd,切换你要使用的那个环境,使用命令activate 环境名如图,说明你已经切换到你想要的环境下了。第二步:在cmd上,输入jupyter notebook,等待片刻,就会跳转到你所选环境下的jupyter notebook中了。jupyter notebook第三步:你就可以使用你新环境下的jupyter notebook啦。第四步:如何选择Kernel,如下图,内核有三个,应该选择哪个?应当选择你这个环境下的内核,也就是tfc环境的内核

2021-03-25 23:05:11 3571

原创 新环境下的jupyter notebook 要配置内核吗?

新环境下的jupyter notebook 要配置内核。配置内核的方法:第一步:在cmd中进入你想要的的那个虚拟环境activate 环境名第二步:1、安装ipykernelpip install ipykernel2、添加虚拟环境kernelpython -m ipykernel install --user --name envnameeg:python -m ipykernel install --user --name tfc大功告成!...

2021-03-25 23:04:02 1363 3

原创 DeepCrossing

网络这三个隐藏层和输出层到底干了些什么.1.Embedding层one-hot形式的特征编码过于稀疏,于是增加一个Embedding层来使特征稠密化…这个用法在NLP领域里用的实在太多了, 很普遍的一个做法.2.Stacking层主要用于解决特征交叉的问题;也是很常规的一个做法,将前面的独立特征拼接到一起,得到一个组合的全新特征.3.Multi Residual Units层起始就是加神网络,相当于加了几层没激活的残差网络,让模型可以更加充分的捕捉到各个特征之间的关联,也就是让特征之间得到充分

2021-03-17 00:49:54 92

原创 第六章+连接

第六章 连接import numpy as npimport pandas as pd一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照姓名\color{red}{姓名}姓名和班级\color{red}{班级}班级连接成总的成绩表,又例如对企业员工的各类信息表按照员工ID号\color{red}{员工ID号}员工ID号进行连接汇总。由此可以看出,在关系型连接中,键\color{red}{键}键是十分重要的,往往用on参

2020-12-29 21:29:07 164

原创 第五章+变形

第五章 变形import numpy as npimport pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:pd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]})

2020-12-27 20:20:00 499

原创 第四章+分组

第四章 分组import numpy as npimport pandas as pd一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别\color{#FF0000}{性别}性别分组,统计全国人口寿命\color{#00FF00}{寿命}寿命的平均值\color{#0000FF}{平均值}平均值依据季节\color{#FF0000}{季节}季节分组,对每一个季节的温度\color{#00FF00}{温度}温度进行组内标准化\color{#0000FF}

2020-12-24 12:02:11 250

原创 Pandas数据分析——Task2

练习题Ex1:口袋妖怪数据集现有一份口袋妖怪的数据集,下面进行一些背景说明:#代表全国图鉴编号,不同行存在相同数字则表示为该妖怪的不同状态妖怪具有单属性和双属性两种,对于单属性的妖怪,Type 2为缺失值Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed分别代表种族值、体力、物攻、防御、特攻、特防、速度,其中种族值为后6项之和对HP, Attack, Defense, Sp. Atk, Sp. Def, Speed进行加总,验...

2020-12-19 20:55:23 855 3

原创 pandas数据分析--预备知识

2020-12-14 21:46:34 72

原创 Python、Anaconda、TensorFlow、Pycharm之间的关系以及下载安装

本文内容:一、解释四者之间的关系二、Anaconda的下载与安装三、Pycharm的下载与安装四、TensorFlow的安装小结和展望一、解释四者之间的关系Python ———— 编译环境(类似于C、JAVA等这些编译环境)Anaconda ———— python+conda(包管理器)+科学计算库TensorFlow ———— 一种架构,类似于PytorchPycharm ———— 集成开发环境1、Python和Anaconda的关系Anaconda里.

2020-11-09 11:44:50 2971

原创 报错no attribute approx

no attribute 'approx'报错只要:pip uninstall pytestpip install pytest卸载再安装就行了

2020-06-03 09:33:28 112

原创 MLlib的应用场景

2019-09-02 14:46:13 487

原创 MLlib与ml

2019-09-02 14:36:17 153

原创 MLlib的数据格式

MLlib的数据格式本地向量(local vector) 标签数据(labeled point) 本地矩阵(local matrix) 分布式矩阵(distributed matrix) ...

2019-09-02 14:27:53 130

原创 MLlib机器学习库

2019-09-02 14:03:18 213

原创 机器学习概述

课程目录机器学习概况 机器学习现状分析 机器学习核心思想 机器学习框架与选型一、机器学习概况机器学习概念:机器学习是用数据或以往的经验,并以此来优化程序的性能标准。机器学习发展史:1986- 新时期(Hinton提出BP神经网络) 1990S 神经网络逐渐冷清 2012- 深度学习成为风口(AlexNet的影响)机器学习(ML)与人工智能(AI):机器学习...

2019-09-02 13:50:00 267

原创 掌握Spark机器学习库

一、导论前置知识:1、了解大数据相关基础知识。2、熟悉Linux基本命令。3、熟悉Scala语言的编程方法。4、有一定的数学基础。环境参数:1、spark版本:2.3.02、JDK:1.83、开发工具:IDEA最重要的是:1、勤于思考,善于提问。2、主动学习,不断扩展知识视野。3、多尝试、爱总结、有耐心、有恒心。...

2019-09-02 11:17:35 221

转载 为什么要学习数据结构

目录1、什么是数据结构?2、为什么我们要学习数据结构?3、常见的数据他的结构有8种1、什么是数据结构?数据结构是以某种特定的布局方式存储数据的容器。这种布局方式决定了数据结构对于某些操作是高效的,而对于其他操作则是低效的。所以我们需要理解各种数据结构,才能处理实际问题时选取最合适的数据结构。2、为什么我们要学习数据结构?数据是计算机科学当中最关键的实...

2019-08-08 10:35:29 969

原创 entos6.8升级PHP 到7.0

1、停止PHP服务 service php-fpm stop2、卸载PHP rpm -qa|grep php rpm remove php*3、更新源 rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rpm rpm -Uvh ...

2019-08-03 21:30:13 87

原创 bash: /home/hadoop/app/jdk1.8.0_151/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录

用sudo yum install glibc.i686命令安装好glibc之后问题就解决了。

2019-03-27 16:06:31 588

原创 Linux中当出现user hadoop is currently used by process 18726,如何删除用户

首先一般的:一般的userdel -r hadoop,无法删除用户。应当采取强硬手段。sudo userdel -r -f hadoop.可将用户删除。

2019-03-27 11:36:24 2044

PPT 清新文艺森系叶子PPT模板2

清新文艺森系叶子PPT模板2

2020-12-17

基于MATLAB插值算法仿真的犯罪率研究.pdf

基于MATLAB插值算法仿真的犯罪率研究,有关于插值算法方面的研究资料。

2019-09-04

国赛论文资料.txt

13年国赛优秀论文赏析,用于数学建模后期,观摩优秀论文,以便比赛时借鉴。

2019-09-04

数学建模的论文

数学建模的论文。校内停车问题、BP神经网络等论文

2019-06-17

CentOS-6.5-i386-bin-DVD1.iso

这个是Linux系统,CentOS-6.5-i386-bin-DVD1.iso。 这个是Linux系统,CentOS-6.5-i386-bin-DVD1.iso。 这个是Linux系统,CentOS-6.5-i386-bin-DVD1.iso。

2019-06-17

清华数模讲义(姜启源)PPT

清华数模讲义(姜启源)PPT,我这里还有其它的一些关于数模和统计的一些资源,有需要的可以找我。

2018-08-11

sql developer 64 位(PLSQL Developer 12.exe)

欢迎大家下载(PLSQL Developer 12.exe)

2017-10-18

数学建模国赛论文

数学建模国赛论文

2017-08-18

数学建模模型与算法

数学建模各类算法以及模型

2017-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除