—Xi—
码龄5年
求更新 关注
提问 私信
  • 博客:223,922
    动态:77
    223,999
    总访问量
  • 64
    原创
  • 306
    粉丝
  • 49
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2020-10-25

个人简介:机器学习/数据挖掘/爬虫/推荐系统

博客简介:

m0_51933492的博客

查看详细资料
个人成就
  • 获得308次点赞
  • 内容获得119次评论
  • 获得2,216次收藏
  • 代码片获得32,496次分享
  • 博客总排名989,616名
创作历程
  • 3篇
    2023年
  • 65篇
    2022年
成就勋章
TA的专栏
  • 数据挖掘竞赛
    6篇
  • 机器学习
    19篇
  • 深度学习
    4篇
  • nlp
    4篇
  • c语言编程
    6篇
  • 爬虫
    6篇
  • 推荐系统
    13篇

TA关注的专栏 7

TA关注的收藏夹 0

TA关注的社区 5

TA参与的活动 0

创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

83人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

【数据分析】数据分析达人赛3:汽车产品聚类分析

本次教学赛是数据科学家陈博士发起的数据分析系列赛事第3场 —— 汽车产品聚类分析赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。
原创
发布博客 2022.10.31 ·
5537 阅读 ·
10 点赞 ·
6 评论 ·
94 收藏

【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果.notRepairedDamage 中存在空缺值,但空缺值用“-”表示,所以数据查看发现不了空缺值,将“-”替换成NaN。图中可以看出,seller,offerType,creatDate这几个特征值分布不均匀,分别查看。可以看出,seller,offerType这两个特征的取值无变化,几乎倒向同一个值,可以删除。一般来说汽车价格与使用时间成反比。
原创
发布博客 2022.11.01 ·
9389 阅读 ·
22 点赞 ·
4 评论 ·
176 收藏

【机器学习】模型融合

模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法。
转载
发布博客 2023.03.23 ·
1700 阅读 ·
1 点赞 ·
2 评论 ·
25 收藏

解决ssh: connect to host slave1 port 22: No route to host

集群都搭建好了,不知道为啥突然master连接不上slave1了,slave0都连接上了。。。在/etc/resolv.conf中添加。
原创
发布博客 2023.03.22 ·
7968 阅读 ·
4 点赞 ·
0 评论 ·
12 收藏

Xshell连接linux虚拟机centos出现Could not connect to ‘192.168.10.130‘ (port 22): Connection failed.问题

更改子网ip与虚拟机ip第三位一致,比如我原来虚拟机子网ip为192 168 40 0 虚拟机ip 192.168.10.130。则子网ip可以改为为192 168 10 0。在windows的cmd中输入ipconfig 查看vmnet8的ipv4, 发现子网ip是192 168 40 0。在centos终端输入ifconfig查看虚拟机ip为 192.168.10.130。更改设置-勾选net模式,发现,我的子网ip为192 168 40 0,在vm中-编辑,打开虚拟网络编辑器-
原创
发布博客 2023.03.21 ·
1441 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【数据分析】数据分析达人赛2:产品关联分析

'软式棒球', '三角网架', '垒球', '棒球服', '头盔', '棒球手套', '球棒与球棒袋', '帽子', '硬式棒球', '击打手套', '皮带', '垒垫', '三角网架,软式棒球', '垒球,头盔', '头盔,棒球手套', '头盔,球棒与球棒袋', '头盔,硬式棒球', '头盔,软式棒球', '棒球手套,硬式棒球', '棒球手套,软式棒球', '球棒与球棒袋,硬式棒球', '球棒与球棒袋,软式棒球']2015-07-20 [球棒与球棒袋, 软式棒球, 三角网架, 帽子, 棒球服]
原创
发布博客 2022.10.18 ·
2009 阅读 ·
3 点赞 ·
2 评论 ·
23 收藏

【数据分析】数据分析达人赛1:用户情感可视化分析

通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。1 这只HD650在1k的失真左声道是右声道的6倍左右,也超出官方规格参数范围(0.05%),看...5 我觉得任何人都可以明确分别高端耳机之间的区别,不用出声都可以,毕竟佩戴感不一样,这还没法做到盲听。17173 自己焊接一下就行了,话说我820原线全新,800s原线99新,放盒子里没动了。
原创
发布博客 2022.10.18 ·
3694 阅读 ·
2 点赞 ·
2 评论 ·
63 收藏

【python爬虫笔记】动态渲染页面爬取

用Selenium来驱动浏览器加载网页的话,就可以直接拿到JavaScript渲染的结果了,不用担心使用的是什么加密系统。Selenium的使用可以看这里。
转载
发布博客 2022.11.16 ·
980 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

【python爬虫笔记】验证码

GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine
原创
发布博客 2022.11.14 ·
1442 阅读 ·
4 点赞 ·
2 评论 ·
16 收藏

【python爬虫笔记】scrapy

下载 scrapy该命令先依据创建一个文件夹,然后再文件夹下创建于个scrpy项目,这一步是后续所有代码的起点。创建新项目创建第一个scrapy爬虫文件 pm如果想要运行项目命令,则必须先进入红色下划线my_scrapy文件夹,在项目目录中才能控制项目。此时在spiders文件夹中,出现pm.py文件,该文件内容如下所示:使用命令,spider是上文生成的爬虫文件名,出现如下内容,表示爬虫正确加载。
原创
发布博客 2022.11.14 ·
548 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【python爬虫笔记】 lxml requests selenium模块

非常适合作为 Python 爬虫入门阶段第一选择,其简单的接口与代码封装,能大幅度降低网络请求代码编写难度,让你专注与目标数据的提取,更有基于高级请求的封装作为提高部分,该库完全可以贯穿你的整个爬虫工程师生涯。,如果你想向同一主机发送多个请求,使用会话对象可以将底层的 TCP 连接进行重用,从而带来显著的性能提升。模块目前在 Python 爬虫领域的出场率极高,很多简单的接口开发,也会基于它进行实现,通过会话对象的属性设置的参数,能被保持,而通过会话对象方法传递的参数,不能被保持。
转载
发布博客 2022.11.11 ·
1107 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【python爬虫笔记】urllib模块、正则表达式、Beautiful Soup

方法,可以将 HTML 标签进行格式化操作,这样你就可以在存储到外部文件的时候,让其 HTML 代码美观。模块,其内部定义了打开 URL 的函数,授权验证的方法,重定向,cookie 操作等方法。该函数用于,在字符串中搜索正则表达式匹配到的第一个位置的值,返回 match 对象。类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是。搜索字符串,并返回一个匹配结果的迭代器,每个迭代元素都是 match 对象。函数进行分割的时候,如果正则表达式匹配到的字符恰好在字符串开头或者结尾,
转载
发布博客 2022.11.10 ·
469 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【python爬虫笔记】服务器端搭建

目录传统TCP服务器端搭建 传统TCP客户端搭建 引入非阻塞的TCP服务器爬虫实战:使用socket建造一个服务端 使用socket建造一个客户端 爬取百度首页传统TCP客户端搭建 传统TCP服务器中.accept()方法是阻塞的,会造成阻塞形成网络等待 在TCP服务器中使用协程,引入非阻塞,解决服务器和客户端两个线程的切换问题引入非阻塞的TCP服务器爬虫实战:使用socket建造一个服务端 使用socket建造一个客户端 爬取百度首页爬取到
原创
发布博客 2022.11.09 ·
1666 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

jupyter notebook连接不上,心态崩了。。。什么方法都试了,把jupyter卸载了又安不上了,笑死,所以现在打算重新卸载安装anaconda...

发布动态 2022.10.25

【c/c++编程】数学类问题:同余模、最大公约数、最小公倍数、素数判定

目录同模余定理题1-求S(n)最大公约数(GCD)题2-最简真分数最小公倍数(LCM) 题3-求最小公倍数斐波那契数素数题4-判断素数题5-判定素数题6-素数判定题7-素数定义所谓的同余,顾名思义,就是许多的数被一个数 d 去除,有相同的余数。d 数学上的称谓为模。如 a = 6, b = 1, d = 5, 则我们说 a 和 b 是模 d 同余的。因为他们都有相同的余数 1 。数学上的记法为: a≡ b(mod d) 可以看出当 n < d 的时候,所有的 n 都对 d 同商,比如时钟上的小时数,都小于
原创
发布博客 2022.10.14 ·
1831 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

【零基础入门推荐系统 - 新闻推荐】1-数据分析-天池学习赛笔记

平均共现次数3.18,最高为2202,两篇新闻连续出现的概率算高,说明用户看的新闻上下相关性较强。从上图可以发现不同用户点击文章的时间差是有差异的,用户先后点击文章,文章的创建时间也是有差异的。由图知,偏好类型广泛的用户较少,大多数用户的偏好类型较少,在20个类型以下。这是一种简单的处理思路, 判断用户活跃度,更加全面的是再结合上点击时间,点击次数小于等于两次的用户非常的多,这些用户可以认为是非活跃用户。'''点击次数最多的前20篇新闻,点击次数大于2500。此特征可以用于度量用户的兴趣是否广泛。
原创
发布博客 2022.10.14 ·
1707 阅读 ·
0 点赞 ·
0 评论 ·
27 收藏

【c/c++编程】查找类问题

幸运的是,你意外得到了一份北大图书馆的图书借阅记录,于是你挑灯熬夜地编程,想从中发现潜在的朋友。同时,按照“臭味相投”的原则,和你喜欢读同一本书的人,就是你的潜在朋友。每个案例第一行两个整数N,M,2
原创
发布博客 2022.10.06 ·
273 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【c/c++编程】贪心问题

某天,吴大佬准备和菜鸡Tirpitz一起组队刷题,聪明的吴大佬把题目分成了n个板块,每个板块有w[i]个题目,刷完这个板块需要消耗吴大佬m[i]的精力。输入由多个测试用例组成,每个测试用例是有两个非负整数m(总的精力),n的行作为第一行,然后后面有n行跟随,每行包括两个非负整数w[i],m[i],最后一个测试用例后面有一组 -1 -1(所有的整数都不大于1000,毕竟人类是有极限的嘛hhh)小明现在手里有x元,他想吃尽量多的饮料,于是向你寻求帮助,怎么样买才能吃的最多。请注意,每一种饮料都可以只买一部分。
原创
发布博客 2022.10.13 ·
738 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【nlp】天池学习赛-新闻文本分类-深度学习1

vector = gensim.models.KeyedVectors.load_word2vec_format('data.vector')为使用保存的词向量加载词向量,在实际使用中更改文件名称即可。vector['非常'] 为该种方法获取词向量的方法。FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。没有悲欢的姿势, 一半在尘土里安详, 一半在风里飞扬;
原创
发布博客 2022.10.13 ·
1031 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

【NLP】关于Word2Vec词向量与keras的Embedding层的学习总结

最后,我们不更新此模型中学习的单词权重,因此我们将将模型的可训练属性设置为False。类,可以配合训练数据,可以将文本转换为序列,通过调用texts_to_sequences()的方法标记生成器的类,并提供访问字的字典映射到整数在word_index属性。只能接受长度相同的序列输入。3.它可以用于加载预训练的词嵌入模型,是种迁移学习,将词嵌入模型转换为权重矩阵输入keras的Embedding层。通过枚举Tokenizer.word_index中的所有唯一的字,并从加载的GloVe嵌入中定位嵌入权重向量。
原创
发布博客 2022.10.13 ·
1357 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多