自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 【python爬虫笔记】验证码

GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

2022-11-14 20:55:30 242

原创 【python爬虫笔记】scrapy

下载 scrapy该命令先依据创建一个文件夹,然后再文件夹下创建于个scrpy项目,这一步是后续所有代码的起点。创建新项目创建第一个scrapy爬虫文件 pm如果想要运行项目命令,则必须先进入红色下划线my_scrapy文件夹,在项目目录中才能控制项目。此时在spiders文件夹中,出现pm.py文件,该文件内容如下所示:使用命令,spider是上文生成的爬虫文件名,出现如下内容,表示爬虫正确加载。

2022-11-14 11:39:59 16

转载 【python爬虫笔记】 lxml requests selenium模块

非常适合作为 Python 爬虫入门阶段第一选择,其简单的接口与代码封装,能大幅度降低网络请求代码编写难度,让你专注与目标数据的提取,更有基于高级请求的封装作为提高部分,该库完全可以贯穿你的整个爬虫工程师生涯。,如果你想向同一主机发送多个请求,使用会话对象可以将底层的 TCP 连接进行重用,从而带来显著的性能提升。模块目前在 Python 爬虫领域的出场率极高,很多简单的接口开发,也会基于它进行实现,通过会话对象的属性设置的参数,能被保持,而通过会话对象方法传递的参数,不能被保持。

2022-11-11 21:24:30 17

转载 【python爬虫笔记】urllib模块、正则表达式、Beautiful Soup

方法,可以将 HTML 标签进行格式化操作,这样你就可以在存储到外部文件的时候,让其 HTML 代码美观。模块,其内部定义了打开 URL 的函数,授权验证的方法,重定向,cookie 操作等方法。该函数用于,在字符串中搜索正则表达式匹配到的第一个位置的值,返回 match 对象。类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是。搜索字符串,并返回一个匹配结果的迭代器,每个迭代元素都是 match 对象。函数进行分割的时候,如果正则表达式匹配到的字符恰好在字符串开头或者结尾,

2022-11-10 17:56:12 59

原创 【python爬虫笔记】服务器端搭建

目录传统TCP服务器端搭建 传统TCP客户端搭建 引入非阻塞的TCP服务器爬虫实战:使用socket建造一个服务端 使用socket建造一个客户端 爬取百度首页传统TCP客户端搭建 传统TCP服务器中.accept()方法是阻塞的,会造成阻塞形成网络等待 在TCP服务器中使用协程,引入非阻塞,解决服务器和客户端两个线程的切换问题引入非阻塞的TCP服务器爬虫实战:使用socket建造一个服务端 使用socket建造一个客户端 爬取百度首页爬取到

2022-11-09 16:34:22 678

原创 【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果.notRepairedDamage 中存在空缺值,但空缺值用“-”表示,所以数据查看发现不了空缺值,将“-”替换成NaN。图中可以看出,seller,offerType,creatDate这几个特征值分布不均匀,分别查看。可以看出,seller,offerType这两个特征的取值无变化,几乎倒向同一个值,可以删除。一般来说汽车价格与使用时间成反比。

2022-11-01 16:01:55 236

原创 【数据分析】数据分析达人赛3:汽车产品聚类分析

本次教学赛是数据科学家陈博士发起的数据分析系列赛事第3场 —— 汽车产品聚类分析赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。

2022-10-31 20:02:30 699 1

原创 【数据分析】数据分析达人赛2:产品关联分析

'软式棒球', '三角网架', '垒球', '棒球服', '头盔', '棒球手套', '球棒与球棒袋', '帽子', '硬式棒球', '击打手套', '皮带', '垒垫', '三角网架,软式棒球', '垒球,头盔', '头盔,棒球手套', '头盔,球棒与球棒袋', '头盔,硬式棒球', '头盔,软式棒球', '棒球手套,硬式棒球', '棒球手套,软式棒球', '球棒与球棒袋,硬式棒球', '球棒与球棒袋,软式棒球']2015-07-20 [球棒与球棒袋, 软式棒球, 三角网架, 帽子, 棒球服]

2022-10-18 21:36:10 686 1

原创 【数据分析】数据分析达人赛1:用户情感可视化分析

通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。1 这只HD650在1k的失真左声道是右声道的6倍左右,也超出官方规格参数范围(0.05%),看...5 我觉得任何人都可以明确分别高端耳机之间的区别,不用出声都可以,毕竟佩戴感不一样,这还没法做到盲听。17173 自己焊接一下就行了,话说我820原线全新,800s原线99新,放盒子里没动了。

2022-10-18 20:17:02 550 1

原创 【零基础入门推荐系统 - 新闻推荐】1-数据分析-天池学习赛笔记

平均共现次数3.18,最高为2202,两篇新闻连续出现的概率算高,说明用户看的新闻上下相关性较强。从上图可以发现不同用户点击文章的时间差是有差异的,用户先后点击文章,文章的创建时间也是有差异的。由图知,偏好类型广泛的用户较少,大多数用户的偏好类型较少,在20个类型以下。这是一种简单的处理思路, 判断用户活跃度,更加全面的是再结合上点击时间,点击次数小于等于两次的用户非常的多,这些用户可以认为是非活跃用户。'''点击次数最多的前20篇新闻,点击次数大于2500。此特征可以用于度量用户的兴趣是否广泛。

2022-10-14 15:45:41 297

原创 【c/c++编程】数学类问题:同余模、最大公约数、最小公倍数、素数判定

目录同模余定理题1-求S(n)最大公约数(GCD)题2-最简真分数最小公倍数(LCM) 题3-求最小公倍数斐波那契数素数题4-判断素数题5-判定素数题6-素数判定题7-素数定义所谓的同余,顾名思义,就是许多的数被一个数 d 去除,有相同的余数。d 数学上的称谓为模。如 a = 6, b = 1, d = 5, 则我们说 a 和 b 是模 d 同余的。因为他们都有相同的余数 1 。数学上的记法为: a≡ b(mod d) 可以看出当 n < d 的时候,所有的 n 都对 d 同商,比如时钟上的小时数,都小于

2022-10-14 11:47:21 412

原创 【nlp】天池学习赛-新闻文本分类-深度学习1

vector = gensim.models.KeyedVectors.load_word2vec_format('data.vector')为使用保存的词向量加载词向量,在实际使用中更改文件名称即可。vector['非常'] 为该种方法获取词向量的方法。FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。没有悲欢的姿势, 一半在尘土里安详, 一半在风里飞扬;

2022-10-13 20:26:11 296

原创 【c/c++编程】贪心问题

某天,吴大佬准备和菜鸡Tirpitz一起组队刷题,聪明的吴大佬把题目分成了n个板块,每个板块有w[i]个题目,刷完这个板块需要消耗吴大佬m[i]的精力。输入由多个测试用例组成,每个测试用例是有两个非负整数m(总的精力),n的行作为第一行,然后后面有n行跟随,每行包括两个非负整数w[i],m[i],最后一个测试用例后面有一组 -1 -1(所有的整数都不大于1000,毕竟人类是有极限的嘛hhh)小明现在手里有x元,他想吃尽量多的饮料,于是向你寻求帮助,怎么样买才能吃的最多。请注意,每一种饮料都可以只买一部分。

2022-10-13 17:08:22 132

原创 【NLP】关于Word2Vec词向量与keras的Embedding层的学习总结

最后,我们不更新此模型中学习的单词权重,因此我们将将模型的可训练属性设置为False。类,可以配合训练数据,可以将文本转换为序列,通过调用texts_to_sequences()的方法标记生成器的类,并提供访问字的字典映射到整数在word_index属性。只能接受长度相同的序列输入。3.它可以用于加载预训练的词嵌入模型,是种迁移学习,将词嵌入模型转换为权重矩阵输入keras的Embedding层。通过枚举Tokenizer.word_index中的所有唯一的字,并从加载的GloVe嵌入中定位嵌入权重向量。

2022-10-13 10:52:50 566

原创 【c/c++编程】查找类问题

幸运的是,你意外得到了一份北大图书馆的图书借阅记录,于是你挑灯熬夜地编程,想从中发现潜在的朋友。同时,按照“臭味相投”的原则,和你喜欢读同一本书的人,就是你的潜在朋友。每个案例第一行两个整数N,M,2

2022-10-06 18:42:23 33

原创 【c/c++编程-排序问题】成绩排序、整数奇偶排序、国名排序、日志排序、字符串排序

有一个网络日志,记录了网络中计算任务的执行情况,每个计算任务对应一条如下形式的日志记录: “hs_10000_p”是计算任务的名称, “2007-01-17 19:22:53,315”是计算任务开始执行的时间“年-月-日 时:分:秒,毫秒”, “253.035(s)”是计算任务消耗的时间(以秒计) hs_10000_p 2007-01-17 19:22:53,315 253.035(s) 请你写一个程序,对日志中记录计算任务进行排序。按照ASCII码的大小对输入的字符串从小到大进行排序,输出排序后的结果。

2022-10-03 18:31:54 390

原创 【nlp】天池学习赛-新闻文本分类-机器学习

数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}由图可知,字数 10000以上的新闻文本是极少数,小于5000。

2022-09-30 11:44:38 869

原创 【c/c++编程-字符问题】字符移动、字母统计、首字母大写、单词统计、加密算法

对一个字符串中的所有单词,如果单词的首字母不是大写字母,则把单词的首字母变成大写字母。输入一个字符串,将其中的数字字符移动到非数字字符之后,并保持数字字符和非数字字符输入时的顺序。分别定义存放字符和存放数字的数组,再通过for遍历gets获得的字符串,如果是非数字字符则输出字符数组,再将数字字符保存在digits数组中,遍历digits数组下标打印。编一个程序,读入用户输入的,以“.”结尾的一行文字,统计一共有多少个单词,并分别输出每个单词含有多少个字符。案例可能有多组,每个案例输入为一行字符串。

2022-09-29 20:37:18 97

原创 【c/c++编程】促销计算、反序数、进制转换、排版类问题、杨辉三角形、日期类问题

今天是2012年4月12日星期四,编写程序,输入今天开始到12月31日之间的任意日期,输出那一天是星期几。例如输入“5(回车)20(回车)”(5月20日),输出应为“Sunday”。输入描述: 输入三个整数(并且三个整数是合理的,既比如当输入月份的时候应该在 1 至 12 之间,不应该超过这个范围),否则输出 Input error!题目描述: 定义一个结构体变量(包括年、月、日),编程序,要求输入年月日,计算并输出该日在本年中第几天。输出描述: 输出一个整数.既输入的日期是本月的第几天。

2022-09-28 21:28:12 1117

原创 【机器学习kaggle赛事】泰坦尼克号生存预测

回顾这个项目的基本流程:1、查看数据集,合并训练集测试集以一起进行数据清洗2、数据清洗:查看数据集空缺值,并填充空缺值3、探索性可视化:通过透视表和图表,探究各个特征与label(需要预测的值)的相关性,若有相关性则保留。4、特征选择:通过相关系数来选择。

2022-09-22 13:57:24 1618

原创 【NLP自然语言处理】文本特征提取

当有TF(词频)和IDF(逆文档频率)后,将这两个词相乘,就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。

2022-09-21 21:48:40 647

原创 【推荐系统】DeepFM模型

因子分解机(Factorization Machines, FM)通过对于每一维特征的隐变量内积来提取特征组合。虽然理论上来讲FM可以对高阶特征组合进行建模,但实际上因为计算复杂度的原因一般都只用到了二阶特征组合,对于更高阶的特征组合,可以用Deep解决。

2022-09-16 15:32:05 315

原创 【推荐系统】wide&deep模型、NeuralCF模型 笔记

Deep:DNN模型,提高模型的泛化能力。Wide:简单的广义线性模型,其特征组合需要人去设计,依赖人工特征工程。注重模型的记忆能力。

2022-09-16 12:07:00 222

原创 【深度学习】吴恩达-课后作业-搭建多层神经网络以及应用

【代码】【深度学习】吴恩达-课后作业-搭建多层神经网络以及应用。

2022-09-15 19:22:45 166

原创 【推荐系统】特征选择(单变量特征选择和基于模型的特征选择)

单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分丢弃不好的特征。单变量特征选择这种方法比较简单,易于运行,易于理解。

2022-09-15 17:01:36 190

原创 【推荐系统】GBDT + LR模型 笔记

转载内容GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,的方法,与有着很大的区别。在GradientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值,进而拟合一棵CART回归树。

2022-09-15 12:54:25 397

原创 【推荐系统】Embedding + MLP tensorflow特征处理 + 模型搭建实战 笔记

Embedding:将经过独热编码过后的类别型特征向量化从而生成稠密特征MLP:将稠密特征输入多层神经网络去拟合得到最优结果。

2022-09-14 16:32:37 348

原创 【推荐系统】特征处理

数据与特征决定了模型的上限,而模型算法则为逼近这个上限”。特征的本质为一项工程活动,目的是最大限度地从原始数据中提取特征以供算法模型使用。在实际构建推荐系统过程中,可以直接用于模型算法的特征并不多,能否从原始数据中挖掘出来有用的特征将会直接决定推荐系统的质量。对于特征一般的处理流程为特征获取、特征清洗、特征处理和特征监控,由于原始数据中的特征通常无法在算法模型中直接使用,需要经过特征转化与特征选择后放入模型。

2022-09-05 20:07:18 339

原创 【机器学习】随机森林及调参 学习笔记

RF优点1.不容易出现过拟合,因为选择训练样本的时候就不是全部样本。2.可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为连续值的量,比如C4.5算法来构造树。3.对于高维数据集的处理能力令人兴奋,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。4.分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法RF缺点。

2022-09-05 12:29:34 408 1

原创 【推荐系统】推荐系统-基础算法 冷启动、及深度学习在冷启动上的应用

冷启动在推荐系统中表示该系统积累数据量过少,无法给新用户做个性化推荐的问题,这是产品推荐的一大难题。每个有推荐功能的产品都会遇到冷启动的问题。一方面,当新商品时上架也会遇到冷启动的问题,没有收集到任何一个用户对其浏览、点击或者购买的行为,也无从判断如何将商品进行推荐;另一方面,新用户到来的时候,如果没有他在应用上的行为数据,也无法预测其兴趣,如果给用户的推荐千篇一律,没有亮点,会使用户在一开始就对产品失去兴趣,从而放弃使用。所以在冷启动的时候要同时考虑用户的冷启动和物品的冷启动。

2022-09-05 10:22:58 320

原创 【推荐系统】推荐基础算法-基于稀疏自编码的推荐方法

假设某个自编码神经网络的输入x是100维的数据,其隐藏层L2我们限定为50个隐藏神经元,输出也是100维的y由于只有50个隐藏神经元,我们迫使自编码神经网络去学习输入数据的压缩表示,也就是说,它必须从50维的隐藏神经元的激活项中重构出100维的输入。输入层,每首歌曲的输入向量为(u1,u2,u3,……隐藏层1、隐藏层2,强制指定神经元的数量为k+1个,此时隐藏层其实就是歌曲的低维特征向量,矩阵为(k+1)xn,k+1为特征维数(包含一个截距项1,之所以保留,是为了可以重构出输出层),其中n为歌曲数量。

2022-09-03 16:38:21 114

原创 【推荐系统】推荐系统-基础算法 基于社交网络的算法

社交网络形成两类社交网络结构,一类是好友一般都是自己在现实中认识的,这种好友关系需要双方确认,如qq空间,facebook,称之为社交图谱。另一种好友只是出于对对方的言论感兴趣而建立好友关系的,如微博,twitter。这种社交网络也被成为兴趣图谱。但任何一个社会化网站都不是单纯的社交图谱或兴趣图谱,在熟人网络如qq空间也会和部分好友有共同兴趣而在微博这种兴趣图谱社交网站中也可能会有现实生活中的亲朋好友.

2022-09-02 21:22:24 315

原创 【推荐系统】推荐系统基础算法-基于矩阵分解的推荐方法、隐语义模型

加载用户对物品的评分矩阵矩阵分解,求奇异值,根据奇异值的能量占比确定降维至k的数值使用矩阵分解对物品评分矩阵进行降维使用降维后的物品评分矩阵计算物品相似度,对用户未评分过得物品进行预测产生前n个评分值高的物品,返回物品编号以及预测评分值。

2022-09-02 15:57:53 291

原创 【推荐系统】推荐系统基础算法-基于协同的推荐算法

因此,基于内容的推荐往往会和其他方法混用,比如基于邻域的算法, 基于邻域的算法可以分为协同过滤算法具有速度快和准确率高两种特点。

2022-09-01 17:22:40 180

原创 【推荐系统】推荐系统基础算法-基于内容的推荐算法

内容来自于书《推荐系统与深度学习》,黄昕,赵伟,王本友,吕慧伟,杨敏编著,清华大学出版社。

2022-08-31 16:04:50 177

原创 【深度学习】吴恩达-笔记 Softmax layer、优化神经网络、贝叶斯最优错误率、改变错误率指标、迁移学习

如果你要做一个计算机视觉的应用,相比于从头训练权重,或者说从随机初始化权重开始,不如你下载别人已训练好的网络结构的权重,你通常能够进展的相当快。你冻结的网络中包含所有层的参数,你只需要训练和你的Softmax层有关的参数。这个理念就是,如果你有一个更大的训练集,也许有足够多的数据,那么不要单单训练一个Softmax单元,而是考虑训练中等大小的网络,包含你最终要用的网络的后面几层。此时,就需要针对我们自己的任务,固定原始网络的相关层,修改网络的输出层,以使结果更符合我们的需要。这样的操作显然是非常耗时的。..

2022-08-31 12:21:05 221

原创 【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例(含数据集)

ID3是决策树学习算法中最具有影响和最为典型的算法,它的基本思想是,利用信息熵的原理,选择信息增益最大的属性作为分类属性。信息熵下降最快。

2022-08-30 21:52:32 612

原创 【深度学习】吴恩达-学习笔记 优化算法(动量梯度,RMSprop,Adam)、参数初始化、Batch Norm

动量梯度下降法采用累积梯度来代替当前时刻的梯度。直观来讲,动量方法类似把球推下山,球在下坡时积累动力,在途中速度越来越快,如果某些参数在连续时间内梯度方向不同,动量就会变小,反之,在连续时间内梯度方向一致,动量会增大。动量梯度下降法可以更快速的收敛并减少目标函数的震荡。 是动量参数,通常取0.9, 为超参数,是x轴方向的动量,是纵向y轴方向的动量。是梯度更新的步长。 RMSprop可以自适应调整每个参数的学习率,此外,RMSprop可以客服学习率过早衰减的问题。相较于动量梯度下降法,()后相乘的微分变为微分

2022-08-30 21:50:23 235

原创 【深度学习】吴恩达-学习笔记 偏差与方差、正则化、梯度检测、mini-batch

如果训练集中样本数量m = 5000000,每个mini_batch包含5000个样本,则一共有1000个mini_batch,每次同时处理的是这5000个mini_batch中的X和y。首先生成跟a3隐藏层相同shape的随机数,小于0.8的等于1,大于0.8等于0,再生成一个0-1矩阵d3,与a3相乘,将a3中的系数剔除20%(遇到0的系数归零)mini_batch size = 1,则为随机梯度下降,失去向量化带来的加速,效率低下。mini_batch size应该处于1-m之间。..........

2022-08-30 18:47:17 156

原创 【机器学习】K邻近算法

可用于分类或回归对于k邻近算法来讲,新数据点离谁最近,就和谁属于同一类。如果在模型训练的过程中选的最邻近数为1,很可能这个数据恰好是一个错误数据,因此,需要增加最近邻的数量,比如把最邻近数增加到3,K邻近算法用于回归的原理与分类相同,当我们用K邻近算法回归计算某个数据点的预测值时,模型会选择离该数据点最近的若干个训练数据集中的点,并将它们的y值取平均值,并将该平均值作为新数据点的预测值。...

2022-08-28 20:30:34 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除