危险驾驶行为图像数据集-开车电话-喝水等
危险驾驶行为图像数据集-开车电话-喝水等。
车内监控危险驾驶行为图像数据,包括电话、喝水等危险行为,还有txt和json格式的目标位置坐标数据,包括常见的一共2000张图像,包括1000张RGB彩色图像,1000张红外图像。可应用于驾驶员监控。
美国联邦选举委员会-政治竞选赞助方面的数据集
美国联邦选举委员会-政治竞选赞助方面的数据集。
美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。样本数据量100w条左右。可用于机器学习和数据分析
食品营养信息数据集
食品营养信息数据集。美国农业部(USDA)制作了一份有关食物营养信息的数据,包括食品的描述,标签,厂家,分组,成分和营养等信息。样本有6636条
海地地震危机数据集
海地地震危机数据集。海地地震危机与求助数据,可以根据数据标记地图求助信息。
泰坦尼克号数据集
泰坦尼克号数据集。
Titanic数据集在数据分析领域是十分经典的数据集。泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?
数据集包含11个特征,分别是:
Pclass:乘客所持票类,有三种值(lower,middle,upper)
Survived:0代表死亡,1代表存活
Name:乘客姓名
Sex:乘客性别
Age:乘客年龄(有缺失)
SibSp:乘客兄弟姐妹/配偶的个数(整数值)
Parch:乘客父母/孩子的个数(整数值)
Ticket:票号(字符串)
Fare:乘客所持票的价格(浮点数,0-500不等)
Cabin:乘客所在船舱(有缺失)
Embark:乘客登船港口:S、C、Q(有缺失)
住房信息数据集
住房信息数据集。
housing.data 包含506个样本,样本包含14个不同的特征:
1.人均犯罪率。
2.占地面积超过 25000 平方英尺的住宅用地所占的比例。
3.非零售商业用地所占的比例(英亩/城镇)。
4.查尔斯河虚拟变量(如果大片土地都临近查尔斯河,则为 1;否则为 0)。
5.一氧化氮浓度(以千万分之一为单位)。
6.每栋住宅的平均房间数。
7.1940 年以前建造的自住房所占比例。
8.到 5 个波士顿就业中心的加权距离。
9.辐射式高速公路的可达性系数。
10.每 10000 美元的全额房产税率。
11.生师比(按城镇统计)。
12.1000 * (Bk - 0.63) ** 2,其中 Bk 是黑人所占的比例(按城镇统计)。
13.较低经济阶层人口所占百分比
14.房价
商铺logo图像集
商铺logo图像集. 样本数量:3725
简介:包括星巴克、屈臣氏、宝岛眼镜等常见的100个不同商家店铺的logo招牌图像数据集,每个商家的logo图像有400个左右。可以用于深度学习图像分类训练的学习。
糖尿病数据集
糖尿病数据集。数据包括768个样本。可用于机器学习研究。
1、该数据集最初来自美国糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别
乳腺癌数据集.zip
乳腺癌数据集。数据集来自UCI机器学习存储库的wdbc.data(威斯康星乳腺癌数据集),其中包含了569个正常和异常的细胞样本,特征共30个。在整个569个患者中,一共有357个是良性,212个是恶性。
阿里真实用户-商品行为数据-推荐系统
阿里真实用户-商品行为数据-推荐系统应用。
样本数量:tianchi_mobile_recommend_train_item 商品信息 50w左右
tianchi_mobile_recommend_train_user 用户商品交互信息 500w左右
tianchi_mobile_recommend_train_user_down2 用户商品交换信息2 500w左右
简介:以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据,表名为tianchi_mobile_recommend_train_user和tianchi_mobile_recommend_train_user_down2。 第二个部分是商品子集,表名为tianchi_mobile_recommend_train_item。
可应用于推荐系统的训练与测试。
电商网站销售数据
电商网站销售数据。样本数量:541909
简介:数据集来自一个在英国注册的在线电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据,共有541909条记录、8个字段。
搜狗用户画像数据集
搜狗用户画像数据集。20w(20万)。
简介:在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。
举例如下:
1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关
2、 男性相比女性会在军事、汽车等主题有更多的搜索行为
3、 高学历人群会更加倾向于获取社会、经济等主题的信息
用户画像是对用户的描述,一般用来精准营销。搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。
提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
属性字段说明:提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历等信息)
开车打手机图像数据集.zip
开车打手机图像数据集。样本数量:1051
简介:包含车内开车打手机的图像和对应手机位置的标记文件,标记文件为xml格式。可以用于打手机目标检测的训练数据集。
申请贷款者信息与信用记录数据集
申请贷款者信息与信用记录数据集。样本数量:700
简介:信贷情况的数据集。可以对贷款者的信用进行预测。
公寓租赁信息受欢迎程度预测数据集.zip
公寓租赁信息受欢迎程度预测数据集。样本数量:49352
简介:根据列表内容,如文字描述、照片、卧室数量、价格等,来预测一个公寓租赁清单的受欢迎程度。数据来自renthop.com,一个公寓上市网站。这些公寓位于纽约市。目标变量interest_level由清单在网站上运行期间的查询次数定义。
脑中风预测数据集
脑中风预测数据集。样本数量:5110
简介:根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11% 。这个数据集被用来根据输入的参数如性别、年龄、各种疾病和吸烟状况来预测病人是否可能得中风
服装员工生产率预测数据集
服装员工生产率预测数据集,样本数量:1197
简介:此数据集包含服装生产过程的重要属性和员工的生产率,这些属性已手动收集并已得到行业专家的验证。该数据集可通过预测生产率范围(0-1)来用于回归目的,也可以通过将生产率范围(0-1)转换为不同的类别来进行分类. 每个样本15个属性值。
足球运动员数据集.
足球运动员数据集,样本数量:10441。
简介:每条样本代表一位球员,数据中每个球员有61项属性。数据中含有缺失值。每个足球运动员在转会市场都有各自的价码。数据的目的是根据球员的各项信息和能力来预测该球员的市场价值。数据来源于FIFA2018。
心脏病发作预测数据集.
心脏病发作预测数据集,样本数量:303
简介:心脏病人信息,心脏病发作分类预测。含义年龄、性别、胸痛类型等14个属性。
公共自行车数据集.
公共自行车数据集。样本数量:10000
简介:本次数据取自于两个城市某街道上的几处公共自行车停车桩。希望根据时间,天气等信息,预测出该街区在一小时内的被借取的公共自行车的数量。
用于安全带检测的车内驾驶安全带图像
一共包括1080张车内带有安全带的人员驾驶图像,同时包括对应的1080个安全带目标检测的位置标记文件。可以用于驾驶员监控的安全带的目标检测训练。
深度学习-人脸卡通化-实现代码
python环境,包括推理和训练代码。包括pytorch模型和onnx模型。有预训练模型,可以直接对人脸图像进行卡通化,有训练代码,可以自己根据需要,使用自己的数据集,重新训练自己的模型。
深度学习-目标检测-密集人头检测数据集002
深度学习-目标检测-密集人头检测数据集
注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集001“
brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。
深度学习-目标检测-密集人头检测数据集001
深度学习-目标检测-密集人头检测数据集,brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集002“
深度学习-目标检测-人头数据集002
深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。
该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集001“
深度学习-目标检测-人头数据集001
深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。
该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集002“
深度学习-猫和狗图像集
一共30000(3w)张左右图像,包括各种猫和狗的图像,可以用于深度学习的分类训练。
车内驾驶员行为图像集包括打手机-喝水-转身等情景
车内驾驶员行为图像集包括打手机-喝水-转身等情景,样本数量:2w左右
深度学习-表情识别-人脸表情数据集002
深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集001“
深度学习-表情识别-人脸表情数据集001
深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集002“
各种室内场景图像集003
各种室内场景图像集003。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集002“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
各种室内场景图像集002
各种室内场景图像集002。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
各种室内场景图像集001
各种室内场景图像集001。注意由于文件大小限制,需要分成3个文件,仅仅该文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集002“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
苹果与橘子图像数据集
苹果与橘子图像数据集. 一共包括1261张各种苹果的图像和1267张各种橘子的图像。可以用于橘子和苹果纹理转换等的深度学习训练。
人脸图像集
人脸图像集. 一共9573张各种人脸图像
垃圾邮件数据集
垃圾邮件数据集。包括16556个正常邮件内和27360个垃圾邮件内容。
全美婴⼉姓名数据集
全美婴⼉姓名数据集。从1880年-2010年的全美婴儿姓名数据的数据集,包含出生年份,性别,名字等。利用这份数据可以对婴儿名字进行分析。
美国政府网站访问情况数据集
美国政府网站访问情况数据集。美国政府网站http://USA.gov部分用户匿名数据。数据是JSON格式,包括用户所在时区,用户终端信息等。
电影评分数据集-用于电影推荐系统
电影评分数据集-用于电影推荐系统。有两个数据集。
数据集1:包括movies.csv和ratings.csv两个文件。movies.csv文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。ratings.csv文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。这里的评分时间是用unix时间戳表示的。在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。
数据集2:ratings.dat是另一个电影评分数据集。包含了6000多位用户对近3900个电影的共100万(1,000,209)条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。
葡萄酒数据集
葡萄酒数据集。
Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。数据里含有178个样本分别属于三个类别,这些类别已经给出。每个样本含有13个特征分量(化学成分),分析确定了13种成分的数量,然后对其余葡萄酒进行分析发现该葡萄酒的分类。
每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本