Output20-CSDN博客

原创 scrapy 处理302和404

问题背景爬取网页的时候，我们有时会不知道网页的页码范围，如果超出了范围就会被重定向（302）有时候我们会在意爬取数据的完整性，所以我们需要在页面获取失败时重爬（如404）解决方案302问题在scrapy.Request()方法中有meta参数，通过这个参数我们可以对爬虫请求的行为进行进一步定制,详见官方文档的说明scrapy对于302的默认行为是再次请求重定向后的地址并返回，在我遇...

2019-03-29 10:55:55 5508

原创用户行为的设计和推荐系统的组合方式

OK？

2018-06-15 10:33:24 603

原创 UserCF算法的实现

…

2018-06-14 17:08:34 2818

原创使用TensorFlow识别手写数字（MNIST数据集）

参照《TensorFlow实战》实现，加上自己的理解import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# 载入数据集,使用one-hot编码mnist = input_data.read_data_sets("/path/to/MNIST_data",one_hot=True...

2018-06-14 16:52:22 385

原创基于隐语义模型的推荐算法的原理

隐语义模型（LFM）和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应用效果。LFM算法的核心是将user-item（M*N）矩阵分为俩个矩阵P（M*F）,Q（F*N）：P矩阵反映了用户对于各个类别的兴趣Q矩阵...

2018-06-11 21:33:18 2258

原创 Centos7 nginx+uwsgi+flask 部署

部署机器是腾讯云的学生机这次部署的过程中还算顺利，但是还是遇见一些坑首先是安装uwsgipip install uwsgi然后是安装nginxyum install nginx安装完成之后我们就可以开始配置了首先是配置uwsgi：我们可以在项目目录下创建配置文件(.ini)[uwsgi]socket = 127.0.0.1:5000pythonpath ...

2018-05-22 18:52:32 839

原创 Centos7 anaconda安装

要在云服务器部署应用，我的应用anaconda首先我们需要选择一个镜像这里我选择的是清华的镜像站： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 在这个目录我们下载我们想要的anaconda版本我下载的是： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/A...

2018-05-21 16:28:59 431

原创 Flask服务器目录结构

Flask是一个灵活的Python web框架，所以我选择它作为我们系统中推荐模块的框架，虽然Flask可以用一个文件来搭建一个服务器，但是当项目比较大时，条理清晰的目录有利于提高项目开发效率以及维护这次我推荐服务器基本(目前)目录结构如下：|-flasky |-app/ |-main/ |-__init__.py ...

2018-05-05 17:08:20 1238

原创 itemCF推荐算法的实现

基于ItemCF的协同过滤算法实训需要实现一个推荐系统，所以先实现了一个比较简单的协同过滤算法import randomimport mathfrom operator import itemgetterclass ItemBasedCF: # 初始化参数 def __init__(self): # 找到相似的20个菜谱，为目标用户推荐10个菜谱 ...

2018-05-03 18:10:28 4858

原创 Centos7 docker,mysql安装

环境：腾讯云的学生特价机，操作系统为centos7首先我们需要更新软件包sudo yum update然后安装dockersudo yum install docker开启docker服务并将docker服务设置为开机启动systemctl docker startsystemctl enable docker设置docker镜像(方便拉取)#需要...

2018-04-26 14:45:47 221

原创使用Scrapy爬取美食网站

如今的爬虫技术主要还是人工定位信息位置，本次爬取的对象是美食杰网站使用的爬虫框架为scrpay不得不说，scrapy的确十分好用，尤其是scrapy shell，使用scrapy shell 写xpath非常的方便！import scrapyfrom cbspider.items import CbspiderItemimport osimport sqlite3'...

2018-04-08 19:01:24 1804 1

原创滑动评价模型中影子变量的理解

当我们使用滑动平均模型的时候，相当于我们维护了两组变量：实际变量（记为variable）和影子变量（记为shadow_variable）按照滑动平均模型： shadow_variable=decay×shadow_variable+(1−decay)×variable 这里我们需要明确的是variable和shadow_variable是不会直接相互赋值的加号前的部分可以看作对之...

2018-04-03 19:53:11 990 2

原创 AtCoder Grand 022 GCD Sequence

题目来源思路：首先想到的应该是构造法，由于集合最大为20000，而每个元素的范围限制在30000内，所以元素应当非常密集。我们可以这样构建：给定n，假如我们构造的集合为C，我们先构造两个集合 A: {i<=30000&&i%2==0} B: {i<=30000&&i%3==0&&i%2!=0} 我们A中元素，3个一组填充集合...

2018-04-02 10:37:00 292

原创 R语言数据框的基本操作

之前学习的R很久不用又忘记了，现在决定还是将其记录下来，以便以后参考csv的基本读取和写入读取：read.csv(文件名) 写入：write.csv(数据框,文件名)例:d&lt;-read.csv("data.csv")write.csv(d,"newdata.csv")数据框的行选和列选行选：data[i,] 列选：data[,j] 删除对应行：data[-i...

2018-03-12 21:14:19 5944

原创 CF427 Palindromic characteristics

CF427D(Div2) Palindromic characteristics题目链接这是一道区间DP题，我们可以首先标记一下是回文串的区间，然后对字符串内的每个区间依次求解就行，这个求解过程可以使用标准的DP（区间大小依次增大，依次求解），也可以使用记忆化搜索（不需要特定顺序，只要保证每个区间只更新一次就行），在我的代码中，我使用的是记忆化搜索根据题目复杂度(|S...

2017-08-01 17:34:34 327

原创关于VMware Tool为空的原因

今天遇到安装VM tool时发现目录为空在网上没找到原因后来发现忽略了一个提示就是说介质改变可能无法被识别那么在开机前更改就可以了————————————————————希望可以帮到遇到相同问题的人

2017-03-14 23:12:49 4839 4

理想技术国