自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

修罗神的海岛

骐骥一跃不能十步,驽马十驾功在不舍!

  • 博客(127)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

转载 马斯克极力推荐的肿瘤免疫细胞浸润数据分析

TCTT官网的数据是最新的,随着官网的更新,可以下载到最新的数据。例如,在给定的例子中,CD8+ T细胞与M0巨噬细胞之间存在负相关关系,这表示在某些肿瘤样品中,当CD8+ T细胞百分率增加时,M0巨噬细胞的表达量会降低。通过小提琴图的分析,可以深入了解肿瘤组织和癌旁组织中免疫细胞成分的差异和特点,为肿瘤免疫治疗提供有价值的线索和依据。在表格的第二列,记录患者的生存时间,单位是天。同样地,预测软件基于已知的免疫细胞表达谱数据,通过比较基因表达量与已知的免疫细胞表达谱数据,推断出组织中免疫细胞的组成。

2023-12-25 22:02:38 172

原创 掌握Java,开启编程新篇章!

此外,《黑马程序员 Java 自学宝典》、《Java 软件开发复习提纲》、《Java 程序设计语言》、《Java 从入门到精通》、《Java 从小白到大牛》、《Java 技术手册》、《Java 趣味编程 100 例》、《Java 入门 123》和《Java 网络编程》等书籍同样具有很高的参考价值和学习价值。它不仅涵盖了Java的基础知识,还深入探讨了Java的高级特性,同时提供了大量的实例代码和注释,帮助你更好地理解和应用Java编程技巧。它将引领你进入Java的世界,为你的编程生涯注入新的活力。

2023-12-07 23:17:20 80

原创 Adobe系列软件:创意之旅的得力助手

从图像处理、视频编辑到音频编辑,从网页开发到排版设计,这些软件都提供了强大的功能和工具,帮助用户实现他们的创意。WIN Br _CC2022_10.0.4.157_ACR12.2.1_SP:用于照片后期处理和滤镜制作,可以帮助用户快速实现照片的创意效果。WIN CH_CC2022_3.3.0.109_SP:用于网页设计和开发,可以帮助用户快速创建响应式网站和网页应用。WIN AU_CC2022_13.0.6.38_SP:用于音频录制和编辑,可以让用户对音频进行精细的调整和处理。

2023-12-07 22:08:56 127

原创 version `GLIBCXX_3.4.20‘ not found 解决方法

su rootcd /usr/local/lib64# 下载最新版本的libstdc.so_.6.0.26sudo wget http://www.vuln.cn/wp-content/uploads/2019/08/libstdc.so_.6.0.26.zipunzip libstdc.so_.6.0.26.zip# 将下载的最新版本拷贝到 /usr/lib64cp libstdc++.so.6.0.26 /usr/lib64cd /usr/lib64# 查看 /usr/lib64下l.

2022-02-09 14:58:25 3533 1

原创 一文快速读懂 KEGG 数据库与通路图

一、介绍在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。这种分析方法依托的是由Kanehisa实验室在1995年开发的KEGG数据库,全称为 Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书)。它拥有多个子数据库,包含基因组,生化反应,生化物质,疾病与药物,以及最常用PATHWAY通路信息。接下来进入KEGG官网:https://www.kegg.jp,它的...

2022-01-28 15:55:46 13073

原创 Python办公自动化之Excel(中)

准备首先,我们需要安装依赖包#安装依赖包pip3installopenpyxl读取数据使用 openpyxl 中的load_workbook(filepath)加载本地一个 Excel 文件,返回结果是一个工作簿对象import openpyxl# 加载本地的Excel文件wb = openpyxl.load_workbook(file_path)利用工作簿对象,可以获取所有的 Sheet 名称及 Sheet 列表def get_all_sheet_nam...

2021-10-22 11:09:46 446

原创 python对Excel单元格加颜色

import pandas as pd import openpyxlfrom openpyxl.styles import Font from openpyxl.styles import PatternFillf1 = "20210908ZY原始数据.xlsx"f2 = '结果-BA原始计算结果-toLMX(1).xlsx'red_font = Font(color='FF0000')ff1 = openpyxl.load_workbook(f2)print(ff1.sheetnam.

2021-10-21 10:53:45 4539

原创 利用python画出AUC曲线的实例

以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码。直接上代码:from sklearn.datasets import load_breast_cancerfrom sklearn import metricsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitimport pylab as plt

2021-10-15 15:48:12 3397

原创 python方差检验的含义及用法

说明1、方差检验是用来比较两个或多个变量数据的样本,以确定它们之间的差异是简单随机的,或者是由于过程之间的显著统计差异造成的。2、自变量X是一种离散数据,自变量Y是一种连续数据(x可以是多种类型),如果数据正态分布,方差应齐次。import pandas as pdimport numpy as npfrom statsmodels.formula.api import olsfrom statsmodels.stats.anova import anova_lmdata = pd.D

2021-10-15 15:46:13 503

原创 pytorch之深度神经网络概念全面整理

深度神经网络就是用一组函数去逼近原函数,训练的过程就是寻找参数的过程。1、神经网络训练过程神经网络的训练过程如下:收集数据,整理数据 实现神经网络用于拟合目标函数 做一个真实值和目标函数值直接估计误差的损失函数,一般选择既定的损失函数 用损失函数值前向输入值求导, 再根据导数的反方向去更新网络参数(x),目的是让损失函数值最终为0.,最终生成模型 各层概念解释输入层:就是参数输入 输出层:就是最后的输出 隐藏层(隐含层):除去其他两层之外的层都可以叫隐藏层模型是什么

2021-10-15 09:38:43 381

原创 Python接口自动化浅析Token应用原理

一、Token基本概念及原理1、Token作用为了验证用户登录情况以及减轻服务器的压力,减少频繁的查询数据库,使服务器更加健壮。2、什么是TokenToken是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。3、Token运行原理1.当用户首次登录成功之后, 服务器端就会生成一个 token 值,这个值会在服务器保存tok

2021-10-14 09:14:55 2365

原创 Python接口自动化之浅析requests模块post请求

一、源码解析def post(url, data=None, json=None, **kwargs): r"""Sends a POST request. :param url: URL for the new :class:`Request` object. :param data: (optional) Dictionary, list of tuples, bytes, or file-like object to send in the body of

2021-10-13 17:36:42 430

原创 Python接口自动化之浅析requests模块get请求

一、requests模块说明介绍Requests是Python语言的第三方的库,专门用于发送HTTP请求。特点1.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。2.在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举的完成浏览器可有的任何操作。3.Requests会自动实现持久连接keep-alive

2021-10-13 17:28:10 371

原创 Python接口自动化之cookie、session应用详解

以下介绍cookie、session原理及在接口自动化中的应用。HTTP 协议是一种无状态协议,即每次服务端接收到客户端的请求时,都是一个全新的请求,服务器并不知道客户端的历史请求记录;Session 和 Cookie 的主要目的就是为了弥补 HTTP 的无状态特性。如果我们测试的接口有依赖关系怎么办呢(比如购物支付时,需要先登录),这时我们就要用到cookie和session技术来保持客户端与服务器端连接的状态。一、cookie1、cookie介绍cookie是服务器发

2021-10-13 17:17:59 779

原创 Python接口自动化浅析logging日志原理及模块操作流程

一、日志介绍01 为什么需要日志?代码需要经历开发、调试、审查、测试或者上线等不同阶段,在开发时想要打印的信息类型可能和上线后想看到的信息类型完全不同。也就是说,在“测试”时,可能只想看警告和错误信息,然而在“调试”时,可能还想看到跟调试相关的信息。 如果你想打印出使用的模块以及代码运行的时间,那么代码很容易变得混乱。使用logging日志模块,这些问题就能很容易地解决。02 什么是日志?日志就是用于记录系统运行时的信息,对一个事件的记录,也称为Log。03 日志的用途是什么?日志的

2021-10-13 14:09:45 386 1

原创 分析详解python多线程与多进程区别

python的多线程比较鸡肋,优先使用多进程1 基础知识现在的 PC 都是多核的,使用多线程能充分利用 CPU 来提供程序的执行效率。1.1 线程线程是一个基本的 CPU 执行单元。它必须依托于进程存活。一个线程是一个execution context(执行上下文),即一个 CPU 执行时所需要的一串指令。1.2 进程进程是指一个程序在给定数据集合上的一次执行过程,是系统进行资源分配和运行调用的独立单位。可以简单地理解为操作系统中正在执行的程序。也就说,每个应用程序都有一个自

2021-10-09 08:26:45 906

翻译 Vmware中装centos7网络设置

最近在VMware虚拟机里玩Centos,装好后发现上不了网。经过一番艰辛的折腾,终于找到出解决问题的方法了。最终的效果是无论是ping内网IP还是ping外网ip,都能正常ping通。方法四步走:第一步,我们进入/etc/sysconfig/network-scripts目录,查看该目录有没有形如ifcfg-XXX的文件:如果你看不到以ifcfg-打头的文件(ifcfg-lo除外),说明网卡设备没有被正确识别,可能是你下载的centos镜像版本和你安装centos时选择的centos版本不一致,比

2021-08-15 16:54:15 134

原创 第14章 数据仓库与数据挖掘

数据仓库技术所解决的问题是如何更合理和更有效地组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识。14.1决策支持系统的发展14.1.1决策支持系统及其演化14.1.2基于数据仓库的决策支持系统数据仓库的决策支持系统提出目的是为了解决在“蜘蛛网结构”中存在的一系列问题。...

2021-06-27 10:13:03 1313 2

原创 第13章 大规模数据库架构

近年来数据库技术与其他技术互相结合、相互渗透,出现了许多新的技术和成果,这为数据库技术更加广泛的应用奠定了基础。本章简要介绍分布式数据库、并行数据库、云计算数据库及 XML 数据库架构。 13.1分布式数据库13.1.1分布式数据库系统概述分布式数据库系统是物理上分散、逻辑上集中的数据库系统。系统中的数据分布在物理位置不同的计算机上(通常称为场地、站点或结点,本章均用场地来描述),由通信网络将这些场地连接起来,每个场地既具有...

2021-06-27 09:20:45 424 1

原创 第12章 备份与恢复数据库

12.1备份与恢复的概念备份数据库就是将数据库中的数据以及保证数据库系统正常运行的有关信息保存起来,以备系统出现问题时恢复数据库时使用。12.1.1备份数据库备份是制作数据库的副本,包括数据库结构、对象和数据。备份数据库的主要目的是为了防止数据丢失。造成数据丢失的原因主要包括如下几种情况:备份数据库的另一个作用是进行数据转移,可以先对一台服务器上的数据库进行备份,然后在另一台服务器上进行恢复.从而使这两台服务器上具有相同的数据库。12.1.2恢复数据库恢复数据库是指数据库系统...

2021-06-27 08:55:07 932

原创 第11章 故障管理

任何一个数据库应用系统,特别是重要的应用系统,如果数据库发生故障导致数据遭到破坏或损坏,将带来巨大的甚至是灾难性损失。因此,如何从故障中恢复数据库,保证数据库中数据的安全性和正确性是一个至关重要的问题。本章将就数据库故障的恢复技术作比较详细的论述。本章首先介绍数据库恢复的一般步骤 ,然后结合数据库中常见的四种故障,介绍每种故障的解决策略,之后介绍数据库恢复技术中最常用的几种恢复技术如数据转储技术、登记日志文件技术、数据库镜像技术和廉价冗余磁盘阵列(RAID)的恢复策略。11.1故障管理概述...

2021-06-27 08:18:13 855 1

原创 第10章 数据库运行维护与优化

10.1数据库运行维护基本工作一般来说,维护工作主要包括:数据库的转储和恢复;数据库的安全性和完整性控制;数据库性能的监控分析和改进;数据库的重组和重构。①数据库的转储与恢复作为数据库管理员,应该针对各种数据制定合理的转储计划,定期对数据库和日志文件进行备份,保证数据库一旦出现故障,也有能力恢复到正常状态。为了保证转储数据能够正常进行恢复,通常情况下,数据库管理员需要定期对转储的数据进行恢复测试工作。恢复测试工作一般情况下是在与正式运行环境类似的环境中,利用转储数据进行数据库数据的恢复,恢复完成...

2021-06-27 07:57:38 7516 1

原创 第9章 安全管理

9.1安全控制概述安全性是指保护数据以防止不合法的使用而造成数据被泄露、更改和破坏;完整性是指数据的准确性和有效性。通俗地讲:⚫ 安全性(Security):保护数据以防止不合法用户故意造成的破坏。⚫ 完整性(Integnty):保护数据以防止合法用户无意中造成的破坏。简单地说,安全性确保用户被允许做其想做的事情;完整性确保用户所做的事情是正确的。数据库中的安全控制是指:在数据库系统的不同层次提供对有意和无意损害行为的安全防范。在数据库中,对有意的非法活动可采用加密存、取数据的方...

2021-06-27 07:47:22 971 1

原创 36丨数据分析算法篇答疑

算法篇更新到现在就算结束了,因为这一模块比较难,所以大家提出了形形色色的问题。我总结了同学们经常遇到的问题,精选了几个有代表性的来作为答疑。没有列出的问题,我也会在评论区陆续解答。17-19 篇:决策树答疑 1:在探索数据的代码中,print(boston.feature_names) 有什么作用?boston 是 sklearn 自带的数据集,里面有 5 个 keys,分别是 data、target、feature_names、DESCR 和 filename。其中 data 代表特征矩阵,target

2021-06-23 19:45:16 721 1

翻译 22丨SVM(上):如何用一根棍子将蓝红两色球分开?

今天我来带你进行 SVM 的学习,SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比如将数据进行聚类,方便后续人工对每个类进行分析。SVM 作为有监督的学习模型,通常

2021-06-21 20:30:48 243

翻译 21丨朴素贝叶斯分类(下):如何对文档进行分类?

我们上一节讲了朴素贝叶斯的工作原理,今天我们来讲下这些原理是如何指导实际业务的。朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。今天我带你一起使用朴素贝叶斯做下文档分类的项目,最重要的工具就是 sklearn 这个机器学习神器。sklearn 机器学习包sklearn 的全称叫 Scikit-learn

2021-06-21 20:09:39 458

翻译 2021-06-2120丨朴素贝叶斯分类(上):如何让机器判断男女?

很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的。有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解。贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个

2021-06-21 19:45:11 341

翻译 19丨决策树(下):泰坦尼克乘客生存预测

在前面的两篇文章中,我给你讲了决策树算法。决策树算法是经常使用的数据挖掘算法,这是因为决策树就像一个人脑中的决策模型一样,呈现出来非常直观。基于决策树还诞生了很多数据挖掘算法,比如随机森林(Random forest)。今天我来带你用决策树进行项目的实战。决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。在了解决策树的原理后,今天我们用 sklearn 工具解决一个实际的问题:泰坦尼克号

2021-06-21 19:28:59 653

翻译 18丨决策树(中):CART,一棵是回归树,另一棵是分类树

上节课我们讲了决策树,基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。今天我来带你学习 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。那么你首先需要了解的是,什么是分类树,什么是回归树呢?我用下面的训练数据举个例子,你能看到不同职

2021-06-21 19:10:13 579

翻译 17 丨决策树(上):要不要去打篮球?决策树来告诉你

想象一下一个女孩的妈妈给她介绍男朋友的场景:女儿:长的帅不帅?妈妈:挺帅的。女儿:有没有房子?妈妈:在老家有一个。女儿:收入高不高?妈妈:还不错,年薪百万。女儿:做什么工作的?妈妈:IT 男,互联网公司做数据挖掘的。女儿:好,那我见见。在现实生活中,我们会遇到各种选择,不论是选择男女朋友,还是挑选水果,都是基于以往的经验来做判断。如果把判断背后的逻辑整理成一个结构图,你会发现它实际上是一个树状图,这就是我们今天要讲的决策树。决策树的工作原理决策树基本上就是把我们以前的经验总结出来。我给你

2021-06-21 19:09:11 1728

翻译 16丨数据分析基础篇答疑

我总结了 NumPy、Pandas、爬虫以及数据变换中同学们遇到的问题,精选了几个具有代表性的来作为答疑。NumPy 相关答疑 1:如何理解 NumPy 中 axis 的使用?这里我引用文稿中的一段代码:a = np.array([[4,3,2],[2,4,1]])print np.sort(a)print np.sort(a, axis=None)print np.sort(a, axis=0) print np.sort(a, axis=1) 同学们最容易混淆的是 axis=0 和 ax..

2021-06-21 19:08:26 312

翻译 15丨一次学会Python数据可视化的10种技能

今天我来给你讲讲 Python 的可视化技术。如果你想要用 Python 进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。可视化视图都有哪些?按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。我来简单介绍下这四种关系的特点:比较:比较数据间各类别的关系,或者是它们随着时间的变

2021-06-21 19:04:47 270

翻译 14丨数据可视化:掌握数据领域的万金油技能

上一讲中,我给你讲了数据变换,今天讲一下数据可视化。如果你想做一名数据分析师,那么掌握可视化技能是必不可少的,因为在大部分情况下,老板更关心呈现的结果。另外当这些可视化的结果呈现在你眼前时,你才能直观地体会到“数据之美”。图片在内容表达上,要远胜于文字,它不仅能体现数据真实性,还能给人很大的想象空间。数据可视化的视图都有哪些?在了解数据可视化的重要性之后,我们来看下,在数据可视化产品中,一般都包括哪些视图?我们常用的可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条

2021-06-20 15:06:35 357

翻译 13 | 数据变换:考试成绩要求正态分布合理么?

上一讲中我给你讲了数据集成,今天我来讲下数据变换。如果一个人在百分制的考试中得了 95 分,你肯定会认为他学习成绩很好,如果得了 65 分,就会觉得他成绩不好。如果得了 80 分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。为什么会有这样的认知呢?这是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。什么是正态分布呢?正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。比如你可能会问班里的考试成绩是怎样的?这里其实指的是大部分同学的成绩如何。以下图为例,在正态分布中,大部分人的

2021-06-20 14:56:58 1341

翻译 12│数据集成:这些大号一共20亿粉丝?

我们采集的数据经常会有冗余重复的情况。举个简单的例子,假设你是一个网络综艺节目的制片人,一共有 12 期节目,你一共打算邀请 30 位明星作为节目的嘉宾。你知道这些明星影响力都很大,具体在微博上的粉丝数都有标记。于是你想统计下,这些明星一共能直接影响到微博上的多少粉丝,能产生多大的影响力。然后你突然发现,这些明星的粉丝数总和超过了 20 亿。那么他们一共会影响到中国 20 亿人口么?显然不是的,我们都知道中国人口一共是 14 亿,这 30 位明星的影响力总和不会覆盖中国所有人口。那么如何统计这 30 位

2021-06-20 11:26:48 182

翻译 11 | 数据科学家80%时间都花费在了这些清洗任务上?

我们在上一节中讲了数据采集,以及相关的工具使用,但做完数据采集就可以直接进行挖掘了吗?肯定不是的。就拿做饭打个比方吧,对于很多人来说,热油下锅、掌勺翻炒一定是做饭中最过瘾的环节,但实际上炒菜这个过程只占做饭时间的 20%,剩下 80% 的时间都是在做准备,比如买菜、择菜、洗菜等等。在数据挖掘中,数据清洗就是这样的前期准备工作。对于数据科学家来说,我们会遇到各种各样的数据,在分析前,要投入大量的时间和精力把数据“整理裁剪”成自己想要或需要的样子。为什么呢?因为我们采集到的数据往往有很多问题。我们先看一个例子,

2021-06-20 11:11:59 352

翻译 10丨Python爬虫:如何自动化下载王祖贤海报?

爬虫的流程相信你对“爬虫”这个词已经非常熟悉了,爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据。在 Python 中,这三个阶段都有对应的工具可以使用。在“打开网页”这一步骤中,可以使用 Requests 访问页面,得到服务器返回给我们的数据,这里包括 HTML 页面以及 JSON 数据。在“提取数据”这一步骤中,主要用到了两个工具。针对 HTML 页面,可以使用 XPath 进行元素定位,提取数据;针对 JSON 数据,可以使用 JSON 进

2021-06-20 07:06:21 236

翻译 09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论

八爪鱼的基本操作在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。自定义任务 VS 简易采集如果你想要采集数据就需要新建一个任务,在建

2021-06-20 06:40:08 5548 2

翻译 08 | 数据采集:如何自动化采集数据?

上一节中我们讲了如何对用户画像建模,而建模之前我们都要进行数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。举个例子,你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖。你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?实际上,如果你只有股票历史数据,你仍然无法理解股票为什么会产生大幅的波动。比如,当时可能是爆发了 SARS 疫情,或者某地区

2021-06-20 06:12:39 2653

翻译 07 | 用户画像:标签化就是数据的抽象能力

王兴说过,我们已经进入到互联网的下半场。在上半场,也就是早期的互联网时代,你永远不知道在对面坐的是什么样的人。那个年代大部分人还是 QQ 的早期用户。在下半场,互联网公司已经不新鲜了,大部分公司已经互联网化。他们已经在用网络进行产品宣传,使用电商销售自己的商品。这两年引领下半场发展的是那些在讲 “大数据”“赋能”的企业,他们有数据,有用户。通过大数据告诉政府该如何智慧地管理交通,做城市规划。通过消费数据分析,告诉企业该在什么时间生产什么产品,以最大化地满足用户的需求。通过生活大数据告诉我们餐饮企业,甚至房地

2021-06-20 05:53:26 299

batchCorr-基于高分辨质谱数据批次内-批次间离子信号校正参考资料

batchCorr-基于高分辨质谱数据批次内-批次间离子信号校正

2022-02-09

代谢组学SERRF校正批次效应测试数据集 example dataset

代谢组学SERRF校正批次效应测试数据集 example dataset

2022-02-09

PSI_download_BLCA.zip

TCGA可变剪切矩阵

2021-05-13

cpc-0.9uxinxixue gongjuxiazai

shengwuxinxixuegongjushangchuan shengwuxinxixuegongju

2018-05-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除