自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataCastle

DataCastle — 专业的大数据竞赛平台 http://pkbigdata.com/

原创 16万大奖,名企offer,翼支付杯大数据建模大赛邀你来战!

第二届翼支付杯大数据建模大赛,自7月20日在DataCastle数据城堡开放报名通道以来,受到了社会各界的广泛关注!目前初赛阶段赛程过半,不少校园数据爱好者纷纷入场,新颖的赛题赛制和丰厚奖励让整个比赛的热度持续上升,高手云集,等你来战!关于“翼支付杯”2019年,央行印发《金融科技(FinTech) 发展规划(2019—2021年)》,明确提出金融科技工作的指导思想、基本原则、发展目标、重点任务和保障措施。《规划》确定了六方面重点任务:一是加强金融科技战略部署;二是强...

2020-08-06 10:47:36 100

原创 报名即送云资源礼包,2020科大讯飞AI开发者大赛邀你挑战!

由科大讯飞发起的一年一度人工智能竞赛平台2020 iFLYTEK A.I.开发者大赛,正在火热报名中!大赛继续开放科大讯飞海量数据资源及人工智能核心技术,发起AI算法赛、AI应用赛、AI公益赛、AI辩论赛4大赛道、23道赛题的新一轮挑战,其中22道竞技赛题中有14道由外部赛题方出题,包括大疆创新、中国聋协、中国辅具、中国科学技术大学、中国农业大学、深圳市青年创业促进会等优质外部出题方,软硬件并举,涵盖了数据挖掘、NLP、CV等人工智能的多个核心领域。豪华算力,参赛即送!...

2020-08-05 16:50:24 75

原创 重构世界的真实,超分辨率图像性能挑战赛邀你来战!

“看得更清楚”是人类基本需求之一,致力于“看清”的超分辨率算法应用场景广泛。比如,将低清的珍贵老纪录片或受损的经典影片修复,让老游戏告别马赛克迎来“第二春”,帮助警察看清监控影像上的人脸和车牌,使医生看清“X光片”中病人的病灶,等等。《哈利波特与魔法石》的修复中用到了超分辨率技术超分辨率算法在实时音视频通话(RTE)有着重要的实用价值,如何将其应用到RTE,是工业界亟待解决的问题。声网 Agora、RTC 开发者社区联合DataCastle数据城堡,正式发布超分辨率图像性能...

2020-08-03 15:53:15 76

原创 第五届信也科技杯数据解决方案应用大赛又来啦!

它来了 它来了它带着 奖金 走来了魔镜杯 它来了它换了名字又来了没错!它就是诞生于2015年的拍拍贷“魔镜杯”在经过第一、二、三、四届之后它脚踏祥云,在2020年重磅升级为“信也科技杯”6月22日正式开启报名!豪华的评委阵容今年,我们的阵容依旧豪华——评委嘉宾:唐杰,清华大学计算机系教授;庄越挺,浙江大学计算机科学与技术学院教授;郑小林,浙江大学计算机科学与技术学院教授;李焰,中国人民大学商学院教授指导单位:中国金...

2020-07-23 17:02:58 84

原创 山东省数据应用(青岛)创新创业大赛圆满落幕

​​5月26日下午,山东省数据应用(青岛)创新创业大赛决赛正式打响。197个创新赛方案中脱颖而出的6强方案团队进行了“数据大比武”,以云直播方式面向全球展示了数据应用创新成果。经过激烈角逐,最终DataLife团队凭借“城市针灸师:智能交通信号优化云控平台”项目获得大赛创新赛金奖,独得20万元大奖。本次大赛以“开放融合、数据赋能”为主题,由山东省大数据局主办、青岛市大数据发展管理局承办,旨在吸引全球数据英才汇聚青岛,推动创新创业公司和数据应用项目落地青岛,实现政企携手共同探索政务数据服务..

2020-05-26 23:47:04 256

原创 山东省数据应用(青岛)创新创业大赛优秀作品路演活动圆满举行

由山东省大数据局主办,青岛市大数据发展管理局承办的山东省数据应用(青岛)创新创业大赛优秀作品线上路演活动近日圆满举行。路演活动是大赛重要环节之一,由大赛协办单位青岛财富管理基金业协会牵头,多家业内知名创投机构对8支优秀团队的参赛作品进行评审,旨在挖掘具有投资潜质的项目与团队,推动项目落地青岛,促进本地大数据产业发展。三门独家“绝技”助力广聚英才  为了办好山东省数据应用(青岛)创新创业大赛,吸引全球数据英才汇聚青岛,大赛组委会拿出了三门独家“绝技”。首先就是在政策上的指导,据介绍...

2020-05-18 13:28:41 308

原创 2020深圳开放数据应用创新大赛将举行“数聚湾区、协同发展 ”主题线上推介会

4月30日15:00 — 16:30,网易客户端、ZAKER、深圳+在线直播线上推介会设两轮抽奖,欢迎互动继前两场线上推介会顺利举行后,4月30日下午,由深圳市政务服务数据管理局、南山区人民政府主办,南山区政务服务数据管理局、华为技术有限公司承办的 “华为云杯 ” 2020深圳开放数据应用创新大赛(2020SODiC)将举办“数聚湾区、协同发展”主题线上推介会。推介会将以网络直播的形式,...

2020-04-29 20:39:21 230

原创 数聚上海,智迎未来!2019上海开放数据创新应用大赛圆满落幕!

经历三个月的初赛选拔,一个月的复赛竞争,以及紧张激烈的线下决赛。12月5日上午,由上海市经济和信息化委员会主办,上海市北高新技术服务业园区、上海市大数据股份有限公司等单位承办的“上海开放数据创新应用大赛(SODA大赛)”结果最终揭晓!精心的组织保证了大赛的高参与度,共有2200余人,350多支团队参加比赛,27支获奖团队将分享百万元奖金,并将获得云服务资源和进入SODA SPACE落地孵化的机...

2019-12-06 18:44:49 454

原创 谁最有可能是冠军?2019数据智能算法大赛全国6强榜单公布!

1、赛事盛况西安交通大学软件学院和深圳市云积分科技有限公司(简称“云积互动”)联合举办的“2019数据智能算法大赛”全国6强榜单出炉。赛事之精彩在于高手过招样式千变万化,赛事之紧张在于谁成谁败难以预测!进入全国6强的队伍,可谓是高手中的高手。他们历经4个月的赛事角逐,突破重重难关,终于杀入全国6强。超群拔萃的选手们更是师出名门,均是来自国内知名高等院校,分别是:西安交通大学、浙江大学、中山...

2019-12-03 11:54:58 5013

原创 探索教育革新,龙泉中学人工智能课程举行开课仪式

9月18日,由成都市龙泉中学和电子科技大学大数据研究中心、DataCastle数据城堡合作进行的人工智能课程开课仪式在龙泉中学举行。龙泉中学教务处薛飞主任、电子科大大数据研究中心老师曾婷婷以及学习人工智能课程的同学们参加了开课仪式。龙泉中学教务处薛飞主任致辞。他首先介绍了龙泉中学人工智能课程开课的背景,强调人工智能课程是在国家大力发展人工智能的背景下,龙泉中学以电子科技大学大数据研究中心为...

2019-09-18 17:59:45 347

原创 点亮智慧之路,郫都一中人工智能课程举行开课仪式

9月9日,由成都市郫都区第一中学和电子科技大学大数据研究中心、DataCastle数据城堡合作进行的的人工智能课程开课仪式在郫都一中礼堂举行。郫都一中副校长杨建军、电子科大大数据研究中心老师张千明博士、教师代表以及学习人工智能课程的80余名同学参加了开课仪式。郫都一中副校长杨建军致辞。他首先介绍了学校人工智能课程开课的背景,强调人工智能课程是在国家大力发展人工智能的背景下,郫都一中以电子科...

2019-09-09 20:49:06 252

原创 还在等外卖?python告诉你,为什么你的外卖这么慢

某天中午,⼩编喜滋滋地点了⼀份⽜⾁饭外卖,然后翘⾸以盼等待配送⼩哥的到来。半个多⼩时过去了,软件上的地图显⽰⼩哥离我只有三百⽶的距离,⽜⾁饭已经近在咫尺。然⽽左等右等⽜⾁饭也没有到,再打开app⼀看,简直两眼发⿊:⼩哥的距离竟然从三百⽶变成了 ⼀千⽶!相信⼤家都曾遇到过这样的问题:外卖点的各种美⾷,或者跑腿购买的东西,还有淘宝的包裹,明明页⾯显⽰它们已经近在咫尺甚⾄只有⼏分钟的路程,...

2019-07-19 16:26:40 304

原创 python爬虫,学习路径拆解及资源推荐

数据是决策的原材料,高质量的数据价值不菲,如何挖掘原材料成为互联网时代的先驱,掌握信息的源头,就能比别人更快一步。大数据时代,互联网成为大量信息的载体,机械的复制粘贴不再实用,不仅耗时费力还极易出错,这时爬虫的出现解放了大家的双手,以其高速爬行、定向抓取资源的能力获得了大家的青睐。爬虫变得越来越流行,不仅因为它能够快速爬取海量的数据,更因为有python这样简单易用的语言使得爬虫能够...

2019-04-03 17:33:38 877

原创 Python数据分析,学习路径拆解及资源推荐(附详细思维导图)

关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单、教程、以及学习的先后顺序;另一类是提供具体的学习内容,知识点或实际案例。但很多繁琐而又杂乱的内容,除了给初学者增加理解和认识的噪音外,真正能够起到明确的方向指引导的,确实不多。以至于很多人一开始没有明确的方向就一头扎进去,学了很久却不知道自己到底在学什么,或者自己学了很久不知道...

2019-03-06 13:46:05 1561 2

原创 6个策略处理不平衡数据

数据不平衡问题被认为是数据挖掘和机器学习领域的主要问题之一,因为大多数机器学习算法假设数据是均匀分布的。在数据不平衡的情况下,多数类主导少数类,机器学习分类器会更偏向于多数类。这导致少数群体的分类不良,分类器甚至可以将所有测试数据预测为多数类。在这篇文章当中你可以获得7种处理不平衡数据的方法。 什么是不平衡数据?不平衡数据通常是指分类问题的问题,其中类没有被平等地表示。...

2019-01-11 10:09:26 705

原创 99%的人都不知道的Python整理文件方法,效率提升100倍

  现在人们经常要去下载或者接收一些文件。比如说同事传来的文档,自己建立的文件,想看的电影等等,那大家都会怎么处理这些文件呢?科研工作者、学生们可能需要阅读大量的文献,我们也需要阅读很多的电子书等等,这些文件你又是如何处理的呢?是一一归类好,还是堆在一个文件夹里就算了?以前我会按照文件的类型进行分类,并定期处理,但这个过程会耗费我大量的时间。·图片类型文件:有pn...

2019-01-08 15:03:55 3423 1

原创 初识LightGBM

上篇了解了如今最火的框架之一xgboost,接下来看下另一款和它一样令人惊艳的框架lightgbm。起源LightGBM全称为Light Gradient Boosting Machine ,由微软开源,一个基于决策树,并且具有快速、分布式、高性能特点的梯度提升框架。它可被用于排行、分类以及其他许多机器学习任务中。同样的,为了方便使用,lightgbm也封装了相应的python库,来看看...

2019-01-08 09:49:15 1028

原创 初识xgboost

经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山,几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是为什们呢?那么就来窥探一下它的庐山真面目吧。起源xgboost 的全称是 eXtreme Gradient Boosting。正如其名,它是 Gradient Boosting Machine 的一个 c++ 实现,作者...

2019-01-04 14:11:26 753

原创 模型过拟合与欠拟合

机器学习中,经常讨论到的一个话题就是泛化能力。泛化能力的强弱决定了模型的好坏,而影响泛化能力的则是模型的拟合问题。欠拟合机器学习的目的并不是为了对训练集的做出正确的预测,而是对没有在训练集中出现的数据进行正确的预测。但是对训练集之外的数据预测的前提是,模型在训练集上的表现很好,基本可以满足大部分数据的预测,这样才会被用在训练集之外的数据。而当模型对训练集预测的结果准确率很低时,说明模型的...

2018-12-28 14:06:16 343

原创 NLP资源清单

 NLP全称是Natural Language Processing的简称,也叫自然语言处理,属于AI的一个分支,这是一个比较难的分支,但是不用怕,拥有有效资源并步步积累,相信你一定会成为nlp达人。 ◆  ◆  ◆优  秀  书  单 自然语言处理综论Daniel Jurafsky本书是一本全面系统地讲述计算机自然语言处理的优秀教材。深入细致地探讨了计算机处理自然...

2018-12-27 09:26:00 405

原创 离散型特征的处理方法

机器学习中,常常在数据集中会遇到一些离散特征,对于这些离散特征相比连续特征要用不同的处理方法,常见的方法有LabelEncoder与OneHotEncoder。LabelEncoderLabelEncoder用来对离散型分类型特征值进行编码,可以对本文编码,也可以对数字编码。sklearn中也提供给相应的工具包以便使用:sklearn.preprocessing.LabelEncod...

2018-12-25 09:45:07 2906

原创 数据标准化的方法

机器学习中,最重要的就是数据预处理了。而当不同特征之间的值差距较大,分布很离散,那么可能就需要统一这些数据的量纲,以便后期的处理。所以,今天带来的是一些数据标准化处理的方法。主要的标准化方法先列出如下:StandardScaler MinMaxScaler MaxAbsScaler RobustScaler NormalizerStandardScalersklearn.p...

2018-12-21 15:33:30 1362

原创 分类结果的评估方法

模型评估可以用在模型类型、调节参数及特征组合中。通过模型评估来估计训练得到的模型对于非样本数据的泛化能力,并且还需要恰当的模型评估度量手段来衡量模型的性能表现。通常在回归问题可以采用平均绝对误差(Mean Absolute Error)、均方误差(Mean Squared Error)、均方根误差(Root Mean Squared Error),而分类问题则采用分类准确率和混淆矩阵的方法,也...

2018-12-19 10:02:47 1380

原创 学习朴素贝叶斯算法的5个简单步骤

 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。本文将通过6个步骤带领你学习朴素贝叶斯算法。 Step1什么是朴素贝叶斯算法?朴素贝叶斯算法是一种基于贝叶斯定理的分类技术,假设在预测变量之间具有独立性。给定一个水果,如果水果是黄色的,圆形的,直径约30厘米,则可以认为它...

2018-12-19 09:17:31 2007

原创 机器学习:训练集与测试集的划分

机器学习中有一个问题是不可避免的,那就是划分测试集和训练集。为什么要这么做呢,当然是提高模型的泛化能力,防止出现过拟合,并且可以寻找最优调节参数。训练集用于训练模型,测试集则是对训练好的模型进行评估的数据集。通常来说,训练集和测试集是不会有交集的,常用的数据集划分方法有以下两种:留出法 k折交叉验证法留出法直接将原数据集划分为两个互斥的数据集,即训练集与测试集。sklearn直接...

2018-12-17 15:53:36 2076

原创 python 文本分析

自从认识了python这门语言,所有的事情好像变得容易了,作为小白,逗汁儿今天就为大家总结一下python的文本处理的一些小方法。话不多说,代码撸起来。——python大小写字符互换在进行大小写互换时,常用到的方法有4种,upper()、lower()、capitalize() 和title()。str = "www.dataCASTLE.com"print(str.upper...

2018-12-17 11:42:00 5089

原创 python微信聊天机器人

上回逗汁儿的朋友豆苗为了哄女朋友开心,爬了一堆的笑话让我来给处理一下,今天这货又来找我了,真是无事不登三宝殿啊,事情是这样的。豆苗:逗汁儿啊,上次你的方法很不错,让我节约了很多时间,为了感谢你,请你吃个饭啊。逗汁儿:算你有良心。吃饭ing豆苗:那个,逗汁儿啊,其实还有一事相求啊。逗汁儿:……豆苗:上次那个笑话啊,我感觉每天发太累了,我想让微信自动发。你看能不能……逗汁儿...

2018-12-14 16:10:13 746

原创 Numpy中构造数据的random类

在日常工作中,当遇到一个问题时,总是先简化它,寻找某一种方法来解决它。如果不使用原数据集,就需要构造数据来验证该方法。大家应该也知道numpy中random类有很多方法可以构造数据,但是当谈论到具体某一种方法的详细说明可能就会含糊不清了,今天就带大家复习下这些方法。先把这些方法一一列出,方便大家查看numpy.random.rand numpy.random.randn numpy....

2018-12-12 17:29:11 278

原创 十分钟学习正则表达式|上手python re模块

请给我10分钟,我有把握让你10分钟上手正则表达式。用一句通俗的语言解释:正则表达式就是记录文本规则的代码。正则表达式之所以难学,是因为它有大量的符号,每个符号的意义和用法又是不一样的,但是只要掌握了用法,正则表达式也可以很友好。本文中所有的代码都在python的re模块下运行。 1、常用字符在常用字符中,除了·,其余的字符都是由\和字母所组成,可以发现,小写字母和大写字母...

2018-12-12 14:47:20 179

原创 关联规则挖掘

关联规则是数据挖掘中的一个重要分支,其主要研究目的是从各种数据集中发现模式,相关性,关联或因果结构。关联规则有形如X→YX→Y 的蕴含表达式,其中X和Y是不相交的项集,即X∩Y=∅X∩Y=∅。 关联规则的三个指标 ·Support(支持度)表示同时包含A和B的事务占所有事务的比例。公式:Support=P(A&B) ·Confidence(可信度)表...

2018-12-10 17:45:59 420

原创 Numpy的排序功能

今天介绍的是numpy中排序的一些函数,如下所示:numpy.sort(ndarray.sort与之类似) numpy.sort_complex numpy.argsort numpy.lexsort numpy.searchsortednumpy.sort()看一下官方文档给出的参数:np.sort(a, axis=-1, kind='quicksort', ord...

2018-12-10 16:53:54 4462 1

原创 爬虫之字体反爬(三)汽车之家

今天为大家带来的是字体反爬的另一个案例,汽车之家。与之前不同的是,这里是对汉字的处理。具体来看下面的分析与代码。首先参考的网站:https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23从网站中可以观察到,它的反爬是这样的:  再从网页源码中观察,发现又是这样的:寻找它的字...

2018-12-07 17:59:47 643

原创 爬虫之字体反爬(二)猫眼票房

今天为大家带来的是字体反爬的另一个案例,猫眼票房。具体来看下面的分析与代码。首先参考的网站:https://piaofang.maoyan.com/?ver=normal从网站中可以观察到,它的反爬是这样的: 再从网页源码中观察,发现又是这样的:同样的还是存在一个特殊的标签 <style>,点开之后如下图所示:  和之前不同的是,这里的字体文件经过了b...

2018-12-06 08:59:06 826 2

原创 爬虫之字体反爬(一)起点网

今天为大家带来的是爬虫之反爬措施中字体反爬的一个案例,起点网。具体来看下面的分析与代码。首先参考的网站:https://www.qidian.com/all?&page=1从网站中可以观察到,它的反爬是这样的:再从网页源码中观察,发现又是这样的:  在观察网页后发现重复出现了一个较为特殊的标签 <style>,点开之后如下图所示: 发现原来...

2018-12-03 14:31:42 1277 1

原创 python时间处理(三)pandas.to_datetime

前两篇内容讲了两个单独的python库函数,今天带大家认识一个常用的工具,pandas.to_datetime(),它是pandas库的一个方法,pandas库想必大家非常熟悉了,这里不再多说。这个方法的实用性在于,当需要批量处理时间数据时,无疑是最好用的。首先看一下它的主要几个参数,官方文档在本文最后给出pandas.to_datetime(arg,errors ='raise',ut...

2018-11-26 09:27:23 22070 2

原创 python时间处理(二)Datetime

上一篇内容了解了time模块,接下来看下Datetime模块,这里主要想解决的问题是如何计算两个时间的差,并且返回秒,分钟,小时,所以内容主要更偏向于解决问题,如果大家没有看到自己需要的,最后会放上官方文档供大家参考。首先看一下它具有的类及描述:类名 描述 datetime.date 日期对象,属性:year,month,和 day 。 datetime.time ...

2018-11-21 13:54:21 481

原创 python时间处理(一)Time

平常的工作与学习中,会遇到许许多多与时间相关的问题,例如时间戳,时间格式化等等。所以今天就带大家了解一下python中处理时间的模块,time,更多的是希望大家不在坑里反复循环的进去出来,相信大家都比我聪明 -_ -...首先,获取当前时间(以下代码默认导入time模块,不再重复)import time time.time()#获取当前时间戳:1542610928.524562...

2018-11-20 10:16:05 431

原创 搞定数据清洗,你只需要这几招

搞定数据清洗,你只需要这几招在收集数据或者中,我们获取到的数据是这样的:亦或是这样的:还可能是这样的: 这个时候我们需要进行的步骤就是数据清洗,数据清洗的对象主要是:缺失值、异常值、重复值和噪音处理。 缺失值缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值可以用以下方式来进...

2018-11-16 09:30:18 3185

原创 pyecharts常见柱状图、圆饼图、散点图

今天带大家认识一下pyecharts中常用的三种视图的画法。更多的是认识一下基本的配置项,避免走太多的坑。当然都是些常用的配置项,如果有奇怪的需求,大家自行查找。。当然前提是必须先安装了pyecharts库  -_ -...引用数据本次作图的数据来自dataset中的“tips”数据集,引用的方法很多种,大家可自行参考。import seaborn as sns import ...

2018-11-15 16:17:50 8312 1

原创 十分钟上手pandas|应用指南

    pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 利用pandas可以从DataFrame和更高维对象插入和删除列;也可以轻松地将其他Python和NumPy数据结构中的不规则索引数据转换为DataFram...

2018-11-14 11:54:12 321

提示
确定要删除当前文章?
取消 删除