学习笔记
文章平均质量分 59
LittleMonkey417
这个作者很懒,什么都没留下…
展开
-
[文本处理之使用pytorch文本情感分类
准备数据电影评论数据下载地址将文本数据处理成torch,我们希望可以得到的target是他的评论态度是积极还是消极,将数据分为2500训练,2500测试,这里网址下载的数据数量已经分好了,利用pytorch进行文本处理...原创 2021-08-16 21:10:44 · 613 阅读 · 3 评论 -
使用pytorch实现手写数字的识别
流程准备数据,这些需要准备DataLoader构建模型,这里可以使用torch构造一个深层的神经网络模型的训练模型的保存,保存模型,后续持续使用模型的评估,使用测试集,观察模型的好坏准备数据先从torchvsion中下载好数字的图片数据作为训练数据集,使用如下代码,将其下载好保存到data文件夹中images = torchvision.datasets.MNIST(r'data',train=True,download=True)为了方便处理数据我们需要对image类型进行转换使用t原创 2021-08-12 19:48:09 · 575 阅读 · 1 评论 -
新时代2021年爬取京东的商品数据(xpath在网页可以找到,但是使用scrapy爬虫没能获取到数据)
在scrapy中请求https://book.jd.com/booksort.html想的很简单,但是爬取出来返回0,在加入user-agent和检查xpath没有错以后,我们怀疑是url的错误,进入预览发现确实所以我们开始使用search进行查找小说字段,发现了我们所要求的书籍分类信息都在这个网址里,向这个网址发起请求https://pjapi.jd.com/book/sort?source=bookSort&callback=jsonp_1627962712678_38975直接进原创 2021-08-03 17:02:45 · 1266 阅读 · 1 评论 -
爬虫day3,通过爬虫有道翻译实现汉译英
找到网站翻译变化的表单数据通过验证,发现向地址post的时候,这三个是变化的,所以找到这三个数据是如何计算出来的,即能成功通过爬虫访问有道翻译抓包进入该js文件中查找如何生成的按ctrl+f进行查找,找到表单数据是怎么生成的,我们选择关键词这里我们选择smartresult进行查找,定位到和表单数据相同的位置在此我们可以发现要求的三个数据,通过r的属性得到,而r又是通过方法generateSaltSign方法得到,所以继续定位此方法,检索到r的生成之后查找大括号里的其他内容终于找到了原创 2021-07-29 16:51:15 · 139 阅读 · 0 评论 -
爬虫day2利用selenium提取斗鱼的房间标题等信息遇到问题
selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document问题原因就是找不到这个element在xpath输入正确的前提下,使用time.sleep(2)可以有效的解决这个问题以下为详细代码import timefrom selenium import webdriver# opt原创 2021-07-28 18:05:02 · 120 阅读 · 0 评论 -
爬虫学习day1遇到问题汇总(带参数的访问百度,代理,金山翻译只能翻译一个固定单词
带参数访问百度出现title为安全验证问题或loding显示loding在header里面需要有cookie,accept-language,accept,usera-gent这几个代理问题代理问题注意http和https,选取的代理ip是否支持TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败timeout参数的使用可以解决此问题爬虫金山翻译的时候,换一个词会导致报错翻译联盟正常,翻译英雄报错原因应该是原创 2021-07-24 22:46:48 · 274 阅读 · 0 评论 -
初学hive的配置及使用
Hive的配置原创 2021-06-23 16:16:15 · 144 阅读 · 0 评论 -
机器学习笔记(二)numpy用法
numpy1, 导入numpy,如果没有就pip install numpyimport numpy as np2, 生成numpy数组,传入一个列表np.array()3, numpy数组之间的加减乘除需要元素个数相同,不同会报错4, n维数组,数学上将一维称为向量,二维称为矩阵,三维及以上称为多维向量d2 = np.array([[1,2],[3,4]])# 查看矩阵的形状d2.shape # (2,2)# 查看矩阵的元素的数据类型d2.dtype # dtype('int原创 2021-06-01 16:36:03 · 136 阅读 · 0 评论 -
人工智能的基础算法总结
一 线性回归线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式为了求到w,有两种方法1, 正规方程根据最小二乘法对误差函数求导:求导后,推导出正规方程正规方程:求得w,缺点是在特征多,有求矩阵逆的步骤所以计算复杂2, 梯度下降法在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最原创 2021-05-26 22:00:24 · 4817 阅读 · 0 评论 -
机器学习笔记(一)----K近邻算法
熟悉Pandas,numpy,matplotlib问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?1:一共有什么样的分类2:每部电影的分类获取到3:从电影分类表得到最后统计结果使用KNN完成鸢尾花种类预测1.获取数据集2.数据基本处理3.特征工程4.机器学习原创 2021-05-17 00:18:20 · 87 阅读 · 0 评论 -
django+celery 实现pycharm发送邮箱
celery是什么Celery介绍:一个简单、灵活且可靠、处理大量消息的分布式系统,可以在一台或者多台机器上运行。单个 Celery 进程每分钟可处理数以百万计的任务。通过消息进行通信,使用消息队列(broker)在客户端和消费者之间进行协调----在需要同时处理多个任务得时候选择celery--------celery的操作步骤下载celery:pip install -U Celery在项目中创建celery_tasks包实现celery功能创建main方法作为celery入口原创 2021-04-26 18:42:40 · 295 阅读 · 0 评论 -
django短信验证码的后端实现
一.逻辑分析整体思路:(以下代码块都为伪代码)1,当前端按下获取验证码按钮的时候,执行js文件中的send_sms_code方法,send_sms_code方法中,向后端发送请求。2,发送的请求应该包括电话号码,uuid,图片验证码,uuid是为了验证图片验证码同时因为需求是要求点击了按钮之后,按钮的显示变成六十秒倒计时,所以是局部刷新,应该是ajax请求3,从redis数据库中提取图形验证码,提取到图形验证码后删除图形验证码,避免因为恶意用户在图形验证码刷新之后仍然使用之前未过期的图形验证码4原创 2021-04-12 21:33:40 · 320 阅读 · 2 评论 -
pycharm+django注册实现图形验证码后端
一,业务逻辑分析二,接口的实现1,注册子应用verifications实现此功能,到项目app目录中,使用django-admin startapp verifications2,在主应用中注册视图(可有可无,因为此子应用没有模板和迁移功能)3,在子应用中新建urls,和主目录连接起来主应用的urls代码块from django.conf.urls import url, includefrom django.contrib import adminurlpatterns = [原创 2021-04-09 14:58:52 · 293 阅读 · 5 评论