python爬虫开发
文章平均质量分 77
@花大腿都撩不动的小哥哥
愿向大家一起学习,共同进步
展开
-
多特瑞商品信息抓取(scrapy爬虫框架)
1、spider目录下爬虫项目(duo_te_rui.py)-- coding: utf-8 --import scrapyimport refrom Duo_te_rui.items import DuoTeRuiItemclass DuoTeRuiSpider(scrapy.Spider):# 爬虫项目名name = ‘duo_te_rui’# 爬虫允许的域allowed_d...原创 2018-12-05 13:31:09 · 230 阅读 · 0 评论 -
在服务器上部署爬虫定时运行
1、在合适的地方vim cai_piao.sh 创建并编辑文件#!/bin/shcd /home/python/Desktop/cai_piao_number # 进入到爬虫项目的路径python3 main.py # 运行爬虫项目启动的主函数2.在当前界面输入 crontab -e 点击Enter键进入编辑在每天的21点自动启动运行 /home/python/Deskt...原创 2019-01-02 17:59:30 · 1923 阅读 · 0 评论 -
scrapy爬虫-TB模拟登陆抓取数据
(我用的谷歌浏览器,在淘宝登录页面,按F12键进入检查模式,点击Network,勾选Preserve log,点击登陆,这样就记录下了登陆需要提交的所有参数)-- coding: utf-8 --import scrapyimport reimport jsonimport timefrom tao_bao_data.items import TaoBaoDataItemclass ...原创 2019-01-02 18:16:12 · 5372 阅读 · 0 评论 -
scrapy爬虫的一些命令行命令
scrapy爬虫创建项目scrapy startproject 项目名创建一个名为itcast的爬虫,并指定爬取域的范围scrapy genspider itcast “itcast.cn”scrapy crawl 项目名 -------------启动爬虫scrapy-redis分布式爬虫启动项目scrapy runspider 项目名.pyredis-cli -h window...原创 2019-01-25 15:06:42 · 1315 阅读 · 1 评论 -
用一个函数,过滤爬虫抓取数据当中所有的HTML标签
def re_html(self, data):# 替换抓取数据中的html标签try:message = str(data)re_h = re.compile(’</?\w+[^>]*>’) # html标签ret1 = re_h.sub(’’, message)return ret1except:pass...原创 2019-01-22 16:58:16 · 998 阅读 · 0 评论