排序:
默认
按更新时间
按访问量

scrapy 登陆5i5j

# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class wiwjSpider(...

2018-04-27 16:12:20

阅读数:21

评论数:0

拉格朗日差值补偿法

from scipy.interpolate import lagrange #导入拉格朗日插值函数 #自定义列向量插值函数 #s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5 def ployinterp_column(s, n, k=5): y = s[list...

2018-04-24 11:30:45

阅读数:20

评论数:0

mysql5.7安装后的密码相关问题解决

安装好mysql已经让我焦头烂额了,没想到mysql还给我来了一个密码上的坑。用yum安装好mysql以后,会在/var/log/mysql.log上面有一个默认密码。如下图这时候想要用update修改,会爆出一个错误# use mysql;# update user set password  ...

2018-04-16 10:09:33

阅读数:48

评论数:0

centos 6.9 安装mysql5.7

centos 6.9 默认使用yum命令安装的mysql数据库为5.1.*的,而开发同志告知希望使用5.7版本的。故需要自己想办法安装一个mysql5.7 供使用。1.yum安装mysql 默认情况的yum会安装mysql5.1此时可以选择到mysql官网去下载一个mysql的yum源,本人手头的...

2018-04-12 11:03:02

阅读数:24

评论数:0

python 的wordcloud 做词云展示

 from wordcloud import WordCloud import matplotlib.pyplot as plt import jieba # jieba做中文的分词 filename = '/Users/apple/Downloads/jin.txt'...

2018-03-14 16:41:24

阅读数:54

评论数:0

mac 下运行selenium 出错解决(selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executab)

最近爬虫遇到很棘手的事情,就是遇到了动态网站。这种情况下,靠原来的抓包无法找到线索,并解决抓取问题。这时候selenium 便出现了在我的视野里面。首先是安装selenium,mac下很简单pip install Selenium==3.0.1 据说这个版本问题少安装好了 就开始学习使用它吧 1...

2018-03-01 17:28:18

阅读数:258

评论数:0

re正则在python爬虫的应用

爬虫爬多了,肯定会遇上一些需求不是在H5标签里面的东西。这时候,就只能硬着头皮去使用re正则提取东西了。import re import urllib2 from lxml import etree ins_url = 'https://www.instagram.com/ahmad_monk...

2018-02-27 16:32:42

阅读数:40

评论数:0

scrapy 不使用ImagePipelines保存图片,并保持原图片名

除了使用自带的ImagePipelines方法外,还可以自己在pipelines写一个request,把图片保存下来。其它的都不在赘述,直接上pipelines。Pipelines.py # -*- coding: utf-8 -*- # Define your item pipelines ...

2018-02-09 13:51:34

阅读数:256

评论数:0

scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存(保留图片原文件名)

喜欢用scrapy来爬美女图片的朋友肯定有这样的一个困扰,爬下来的图片都是各种乱码 *****.jpg 看起来不舒服,而且利于套图的归类。我就是在爬完了几十万的图片后,实在是无法忍受了,故想办法解决这个问题。首先定位到ImagePipelines.pyfrom scrapy.pipelines.i...

2018-02-09 11:58:11

阅读数:169

评论数:0

scrapy使用mongodb作为存储(数据库)

mongodb 相对于关系型数据库mysql 有不少的好处,对我而言就是在配合scrapy使用时,配置非常简单,不需要预先建表,设定字段的属性类型。    只需要在settings.py文件里面简单的配置就可以了,如下   当然,作为数据处理中心的pipelines.py也是需要做一些配置

2018-02-01 17:01:55

阅读数:116

评论数:0

FastDFS 上传正常,读取报错。报错:expect parameter token or ts in url

阿里云服务器由于系统配置更改,在某一个晚上的凌晨自动重启。而这个阿里云服务器上安装的是FastDFS,第二天早上就发现图片上传报错了,conneted refused。 1.检查一下,发现是fdsf_storage没有启动,遂启动之。 ps aux |grep fdfs /etc/init....

2018-01-29 14:00:14

阅读数:124

评论数:0

docker基本操作

1.启动dockercentos系统:service docker startmac:可以通过图形化界面启动2.寻找需要的镜像docker search 镜像 (docker search django)3.下载镜像docker pull django4.运行并进入docker 容器docker ...

2018-01-18 13:59:13

阅读数:264

评论数:0

mac 下安装awesome-slugify

因为django需要用到slugify 来处理url,mac 下需要安装awesome-slugify。 1.先安装 xcode-select --install # xcode-select --install 2.pip install awesome-slugify

2018-01-03 17:20:01

阅读数:77

评论数:0

Django初探

Django 学习笔记1 把自己闲置了太久了,终于沉下心来学习一下知识了。 一,简单的启动一个项目 1.启动项目命令     django-admin startproject 项目名 2.创建一个app     python manage.py startapp app名 ...

2017-12-15 15:45:37

阅读数:55

评论数:0

centos 6.8 下python2.6 升级python2.7,安装pip工具

一.安装python2.7 1.首先去官网下载python的2.7版本包 # cd /usr/local/src/ # wget https://www.python.org/ftp/python/2.7.14/Python-2.7.14.tgz 2.解压并进入安装包 # tar -zxvf...

2017-10-25 15:02:13

阅读数:131

评论数:0

scrapy 模拟登录

注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True 或 # COOKIES_ENABLED = False 策略一:直接POST数据(比如需要登陆的账户信息) 只要是需要提...

2017-09-18 16:16:31

阅读数:477

评论数:0

mongodb 初探

本文是本人初探mongodb的记录,高手止步

2017-09-18 16:11:30

阅读数:292

评论数:0

uumnt美女图片爬虫

# _*_ coding:utf-8 _*_ import urllib import urllib2 import re from lxml import etree #遍历所有471个图片页面,从中拿到每一个美女的html页面 def allurl(url,headers):  ...

2017-09-07 14:40:36

阅读数:2517

评论数:0

python爬虫,爬取蕾丝猫美女图

# _*_ coding:utf-8 _*_ import urllib import urllib2 import re from lxml import etree import random import sys #防止中文乱码 reload(sys) sys.setdefaultencod...

2017-09-07 14:21:57

阅读数:658

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭