无情Array

really skins

下载360图片(二)

编码实现接下来,我们按照以下3步完成该项目:              (1)创建Scrapy项目,并使用scrapy genspider命令创建Spider。              (2)在配置文件中启用ImagesPipeline,并指定图片下载目录。              (3)实现...

2018-06-11 23:24:00

阅读数 262

评论数 0

下载360图片(一)

    我们来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站,在浏览器打开http://image.so.com,其中,页面分类下有大量字画图片,我们可以编写爬虫爬取这些图片。1、项目需求:    下载360图片网站中艺术分类下的所有图片到本地。2、...

2018-06-09 11:15:40

阅读数 285

评论数 0

爬取matplotlib例子源码文件(二)

接下来,我们按以下四步完成该项目:(1)创建Scrapy项目,并使用scrapy genspider命令创建Spider。(2)在配置文件中启用FilePipeline,并指文件下载目录。(3)实现ExampleItem(可选)。(4)实现ExampleSpider。①首先创建Scrapy项目,取...

2018-06-07 16:10:42

阅读数 219

评论数 2

爬取matplotlib例子源码文件(一)

一、项目需求:下载http://matplotlib.org网站中所有例子的源码文件到本地。二、页面分析:首先在例子列表页面http://matplotlib.org/examples/index.html中获取所有例子页面的链接,使用scrapy shell命令下载页面,然后调用view函数在浏...

2018-05-28 23:16:12

阅读数 158

评论数 0

Scrapy爬虫爬取书籍网站信息(三)

爬虫程序到这里虽说已经成功,但也有让人不满意的地方,比如csv中各列的顺序是随机的,看起来比较混乱,可在配置文件settings.py中使用FEED_EXPORT_FIELDS指定各列的次序:FEED_EXPORT_FIELDS=['upc','name','price','stock','rev...

2018-05-28 23:15:27

阅读数 125

评论数 2

Scrapy爬虫爬取书籍网站信息(二)

上文中我们了解到了如何在网页中的源代码中查找到相关信息,接下来进行页面爬取工作:1、首先创建一个Scrapy项目,取名为toscrape_book,接下来创建Spider文件以及Spider类,步骤如下:整个Scrapy框架建于D盘下的pycodes文件夹中,并在文件夹下的Spider文件中建立一...

2018-05-23 20:10:13

阅读数 249

评论数 0

Scrapy爬虫爬取书籍网站信息(一)

本文运用了Scrapy爬虫的知识,爬取了点击打开链接网站中的书籍信息,可以了解到基本Scrapy爬虫框架的使用方法。一、项目需求:     1、其中每本书的信息包括:书名、价格、评价等级、产品编码、库存量、评价数量。     2、将爬取的结果保存到csv文件中。二、在前期分析网页页面时,可以用Ch...

2018-05-12 22:56:18

阅读数 412

评论数 0

将python环境打包成.txt文件

导出Python环境安装包 [root@cf ~]# pip freeze > packages.txt 这将会创建一个 packages.txt文件,其中包含了当前环境中所有包及各自的版本的简单列表(即pip list 所列出的包列表) 安装导入Python环境包 [root@cf...

2019-06-25 18:16:33

阅读数 4

评论数 0

linux命令大全

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT ...

2019-06-24 16:14:01

阅读数 37

评论数 0

django使用jquery中ajax提交表单数据报403错误的解决办法

在$.ajax({})表单提交之前加 $.ajaxSetup({ data: {csrfmiddlewaretoken: '{{ csrf_token }}' }, }); 即可提交成功。

2019-06-19 21:07:14

阅读数 8

评论数 0

python数据科学手册

链接: https://pan.baidu.com/s/1n79lVGP24Ft0MXhD99kvvA 提取码: b1x3

2019-06-04 10:54:45

阅读数 18

评论数 0

关于django路由分发函数中的变量无法取到socketserver中数据的解决方法

套接字(socket)中tcp通信里的服务器端server.py中收到客户端发来的数据,服务器端需要将数据转发到django后端并传到前端显示。此时,需要在django后端取到server.py中的数据,使用redis非关系型数据库进行信息的传递可以解决变量之间地址不同而无法取到想要的值的问题。 ...

2019-05-17 20:03:09

阅读数 15

评论数 0

windows使用pyecharts报错 No module named 'pyecharts_snapshot'解决方法

进入https://pypi.org/project/pyecharts-snapshot/#files之后,在下载文件中下载所需文件,如下图: 在文件路径下cmd中运行pip install pyecharts_snapshot-0.1.10-py2.py3-none-any.whl,...

2019-03-18 20:22:14

阅读数 236

评论数 0

填槽与多轮对话

对于一个对话系统而言,上图中的 DST(对话状态维护)以及 Policy(动作候选排序),或者统一的称其为 DM(Dialogue Mannagement,对话管理)。也即,当接收到 NLU 模块的输出、其他场景及用户特征信息之后,判断系统应该跳转到什么状态,以及执行什么样的动作。 产品角度...

2019-01-21 20:27:18

阅读数 297

评论数 0

TypeError: 'cmp' is an invalid keyword argument for this function

问题描述: 先举个简单的例子: nums = [4, 3, 2, 1] sorted(nums,cmp=lambda a, b: a - b) 之后再python3下报错了: 提示找不到cmp参数。 原因分析: 在官方文档中可以发现,在python2中的sort()函数: s...

2019-01-18 16:59:06

阅读数 317

评论数 0

正则表达式手册

2019-01-17 15:24:23

阅读数 31

评论数 0

有监督学习、无监督学习与半监督学习

这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。 但根据知乎惯例,答案还是要继续扩展的。 首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考...

2019-01-11 15:16:04

阅读数 97

评论数 0

AttributeError: 'itertools.cycle' object has no attribute 'next'

上面程序在运行时遇到AttributeError: 'itertools.cycle' object has no attribute 'next'错误,原因是版本问题,只需要将indexer1.next()改为next(indexer1)即可。

2019-01-11 11:33:45

阅读数 126

评论数 0

文本分类过程概述

传统的文本分类过程通常包括训练模块和分类模块如下图所示:一般来讲文本分类过程包括预处理、文本表示、特征降维、训练分类器和分类性能评估。                                                                               ...

2019-01-09 19:15:11

阅读数 222

评论数 0

准确率(P值)、召回率(R值)、及F值

准确率(P值)是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。 召回率(R值)是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。 假如我此时想吃香蕉,实验室每天都会安排10个水果,分别是6个香蕉,3个橘子,1个菠萝。我在看不见的情况下从中选出5...

2019-01-07 18:40:19

阅读数 381

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭