自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mjp_erhuo的博客

一个爬虫工程师的路程

  • 博客(12)
  • 资源 (4)
  • 收藏
  • 关注

转载 python scrapy d 去重

1. scrapy对request的URL去重yield scrapy.Request(url, self.parse, dont_filter=False)注意这个参数:dont_filter=False2. Jobs: 暂停,恢复爬虫启用一个爬虫的持久化,运行以下命令:scrapy crawl somespider -s JOBDIR=crawls/somespider-1然后,你就能在任何时...

2018-05-23 15:44:34 422

转载 如何用django框架存放静态图片

首先,创建static文件夹static文件夹与settings.py/urls.py在同级目录。static文件夹下创建css/images/js三个文件夹其次,设置settings.py文件1.INSTALLED_APPS需要加入静态文件的安装: 'django.contrib.staticfiles',INSTALLED_APPS = ( 'django.contrib.auth...

2018-05-20 13:53:06 1857

原创 scrapy 爬取数据递归回掉出错 错误日志【Filtered offsite request to】

爬取zol 网站图片,无法抓取.在 setting.py 文件中 设置 日志 记录等级 LOG_LEVEL= 'DEBUG'LOG_FILE ='log.txt'查看日志 发现报2015-11-07 14:43:43+0800 [meizitu] DEBUG: Filtered offsite request to 'bbs.zol.com.cn': <GET http://bbs.zol....

2018-05-18 19:07:10 481

转载 django项目部署到服务器

如何在阿里云上部署 Django 应用程序概述与目的此帖介绍了如何(利用 Ubuntu 操作系统)在阿里云上启动和部署 Django 应用程序。这两个流程的详细步骤说明如下所述:● 使用阿里云管理控制台启动您的第一个 Linux 实例● 在此实例上安装和部署 Django 应用程序关于 DjangoDjango 是一个用 Python 语言写的开源 Web 框架,可帮助开发人员在构想形成后仅数小时...

2018-05-18 11:02:16 18549 4

原创 天涯数据存入数据库和csv

csv版  完整代码import urllib.requestfrom lxml import etreeimport csvdef tian_url(url): url = url headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like G...

2018-05-17 19:39:46 800

原创 MySQL数据库的连接与数据库的基本操作

一:    导入数据库并连接import pymysql.cursors#链接数据库connect = pymysql.Connect( host='127.0.0.1', port=3306, user='root', passwd='root', db='sz1704', charset='utf8mb4')# print("连接成功")...

2018-05-14 17:48:05 277

原创 多线程练习【赶集】

一:    所要用到的包和常量import urllib.requestfrom queue import Queueimport timeimport threadingfrom lxml import etreequeue = Queue()DOWNLOADER_NUM = 10threads = []url = "http://sz.ganji.com/site/s/_pyt...

2018-05-14 10:50:20 864

原创 python基础正则【糗事】

一:    导入的包和网址请求import urllib.requestimport redef handle_url(url,page): url = url + str(page) headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Ge...

2018-05-14 08:58:14 131

转载 将数据存储成csv格式的文件

读写CSV数据问题你想读写一个CSV格式的文件。解决方案对于大多数的CSV格式的数据读写问题,都可以使用 csv 库。 例如:假设你在一个名叫stocks.csv文件中有一些股票市场数据,就像这样:Symbol,Price,Date,Time,Change,Volume"AA",39.48,"6/11/2007","9:36am",-0.18,

2018-05-09 23:56:54 3724

原创 怎么将数据存储成csv

一:打开编写python程序的软件。二:新建一个python文件,用于编写python程序。三:首先引入python编程需要的包。四:然后就是定义一个列表,用于存放再csv文件里面的数据。五:再然后就是定义存储为csv文件后,列表对应的每一列的列名。六:接着就是使用pandas里面的函数,将已经定义好的列表以及定义好的每一列的名字,整合起来。七:然后

2018-05-08 23:28:00 10986 2

原创 xpath 语法运用实例【爬取智联】

智联招聘网的工作岗位爬取一:页数的处理def zhi_page(url, startpage, endpage): for page in range(startpage, endpage): page = url + str(page) return page二:响应数据的获取import urllib.requestimport url

2018-05-08 21:02:15 653

原创 xpath 语法运用实例【爬取boos】

一:url的处理import urllib.requestfrom lxml import etreedef bo_url(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3

2018-05-08 11:22:39 331

dns清理.bat (处理win桌面的远程桌面连接无法连上其他机器)

处理win桌面的远程桌面连接无法连上其他机器

2021-01-27

csv文件合并.bat

将多个CSV文件合并成一个文件 CSV全称Comma-Separated Values,它是一种通用的,简单的,被广泛采用的一种表格数据格式。采用纯文本格式存储,用分隔符号分开。它格式类似于数据库表格,每一行,中间用分隔符分开,一行就是一条记录,一列就是一个字段。它是文本格式,所以非常直观,可读。 CSV文件可以记事本软件直接打开编辑,也可以用Excel软件打开编辑。 CSV文件有几个规则:开头不能空,没有空行,不支持数字和特殊字符

2020-09-02

xpath+helper

google插件XPath Helper可以支持在网页点击元素生成xpath,整个抓取使用了xpath、正则表达式、消息中间件、多线程调度框架(参考)。xpath 是一种结构化网页元素选择器,支持列表和单节点数据获取,他的好处可以支持规整网页数据抓取。 如果我们要查找某一个、或者某一块元素的xpath路径,可以按住shift,并移动到这一块中,上面的框就会显示这个元素的xpath路径,右边则会显示解析出的文本内容,并且我们可以自己改动xpath路径,程序也会自动的显示对应的位置,可以很方便的帮助我们判断我们的xpath语句是否书写正确

2020-03-25

ntp离线安装包 autogen ntpdate ntp

ntp 离线安装包, autogen-libopts-5.18-5.el7.x86_64.rpm ntpdate-4.2.6p5-28.el7.centos.x86_64.rpm ntp-4.2.6p5-28.el7.centos.x86_64.rpm

2019-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除