- 博客(16)
- 收藏
- 关注
原创 scrapy 处理302和404
问题背景爬取网页的时候,我们有时会不知道网页的页码范围,如果超出了范围就会被重定向(302)有时候我们会在意爬取数据的完整性,所以我们需要在页面获取失败时重爬(如404)解决方案302问题在scrapy.Request()方法中有meta参数,通过这个参数我们可以对爬虫请求的行为进行进一步定制,详见官方文档的说明scrapy对于302的默认行为是再次请求重定向后的地址并返回,在我遇...
2019-03-29 10:55:55
5508
原创 使用TensorFlow识别手写数字(MNIST数据集)
参照《TensorFlow实战》实现,加上自己的理解import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# 载入数据集,使用one-hot编码mnist = input_data.read_data_sets("/path/to/MNIST_data",one_hot=True...
2018-06-14 16:52:22
385
原创 基于隐语义模型的推荐算法的原理
隐语义模型(LFM)和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。 这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。LFM算法的核心是将user-item(M*N)矩阵分为俩个矩阵P(M*F),Q(F*N):P矩阵反映了用户对于各个类别的兴趣Q矩阵...
2018-06-11 21:33:18
2258
原创 Centos7 nginx+uwsgi+flask 部署
部署机器是腾讯云的学生机 这次部署的过程中还算顺利,但是还是遇见一些坑首先是安装uwsgipip install uwsgi然后是安装nginxyum install nginx安装完成之后我们就可以开始配置了首先是配置uwsgi:我们可以在项目目录下创建配置文件(.ini)[uwsgi]socket = 127.0.0.1:5000pythonpath ...
2018-05-22 18:52:32
839
原创 Centos7 anaconda安装
要在云服务器部署应用,我的应用anaconda首先我们需要选择一个镜像 这里我选择的是清华的镜像站: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 在这个目录我们下载我们想要的anaconda版本 我下载的是: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/A...
2018-05-21 16:28:59
431
原创 Flask服务器目录结构
Flask是一个灵活的Python web框架,所以我选择它作为我们系统中推荐模块的框架, 虽然Flask可以用一个文件来搭建一个服务器,但是当项目比较大时, 条理清晰的目录有利于提高项目开发效率以及维护这次我推荐服务器基本(目前)目录结构如下:|-flasky |-app/ |-main/ |-__init__.py ...
2018-05-05 17:08:20
1238
原创 itemCF推荐算法的实现
基于ItemCF的协同过滤算法实训需要实现一个推荐系统,所以先实现了一个比较简单的协同过滤算法import randomimport mathfrom operator import itemgetterclass ItemBasedCF: # 初始化参数 def __init__(self): # 找到相似的20个菜谱,为目标用户推荐10个菜谱 ...
2018-05-03 18:10:28
4858
原创 Centos7 docker,mysql安装
环境:腾讯云的学生特价机,操作系统为centos7首先我们需要更新软件包sudo yum update然后安装dockersudo yum install docker开启docker服务并将docker服务设置为开机启动systemctl docker startsystemctl enable docker设置docker镜像(方便拉取)#需要...
2018-04-26 14:45:47
221
原创 使用Scrapy爬取美食网站
如今的爬虫技术主要还是人工定位信息位置, 本次爬取的对象是美食杰网站 使用的爬虫框架为scrpay不得不说,scrapy的确十分好用, 尤其是scrapy shell,使用scrapy shell 写xpath非常的方便!import scrapyfrom cbspider.items import CbspiderItemimport osimport sqlite3'...
2018-04-08 19:01:24
1804
1
原创 滑动评价模型中影子变量的理解
当我们使用滑动平均模型的时候,相当于我们维护了两组变量: 实际变量(记为variable) 和影子变量(记为shadow_variable) 按照滑动平均模型: shadow_variable=decay×shadow_variable+(1−decay)×variable 这里我们需要明确的是variable和shadow_variable是不会直接相互赋值的 加号前的部分可以看作对之...
2018-04-03 19:53:11
990
2
原创 AtCoder Grand 022 GCD Sequence
题目来源 思路:首先想到的应该是构造法,由于集合最大为20000,而每个元素的范围限制在30000内,所以元素应当非常密集。我们可以这样构建: 给定n,假如我们构造的集合为C,我们先构造两个集合 A: {i<=30000&&i%2==0} B: {i<=30000&&i%3==0&&i%2!=0} 我们A中元素,3个一组填充集合...
2018-04-02 10:37:00
292
原创 R语言数据框的基本操作
之前学习的R很久不用又忘记了,现在决定还是将其记录下来,以便以后参考csv的基本读取和写入读取:read.csv(文件名) 写入:write.csv(数据框,文件名)例:d&lt;-read.csv("data.csv")write.csv(d,"newdata.csv")数据框的行选和列选行选:data[i,] 列选:data[,j] 删除对应行:data[-i...
2018-03-12 21:14:19
5944
原创 CF427 Palindromic characteristics
CF427D(Div2) Palindromic characteristics题目链接这是一道区间DP题,我们可以首先标记一下是回文串的区间,然后对字符串内的每个区间依次求解就行, 这个求解过程可以使用标准的DP(区间大小依次增大,依次求解), 也可以使用记忆化搜索(不需要特定顺序,只要保证每个区间只更新一次就行), 在我的代码中,我使用的是记忆化搜索 根据题目复杂度(|S...
2017-08-01 17:34:34
327
原创 关于VMware Tool为空的原因
今天遇到安装VM tool时发现目录为空在网上没找到原因后来发现忽略了一个提示就是说介质改变可能无法被识别那么在开机前更改就可以了————————————————————希望可以帮到遇到相同问题的人
2017-03-14 23:12:49
4839
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人