python爬虫开发
文章平均质量分 66
@花大腿都撩不动的小哥哥
愿向大家一起学习,共同进步
展开
-
多特瑞商品信息抓取(scrapy爬虫框架)
1、spider目录下爬虫项目(duo_te_rui.py) -- coding: utf-8 -- import scrapy import re from Duo_te_rui.items import DuoTeRuiItem class DuoTeRuiSpider(scrapy.Spider): # 爬虫项目名 name = ‘duo_te_rui’ # 爬虫允许的域 allowed_d...原创 2018-12-05 13:31:09 · 218 阅读 · 0 评论 -
在服务器上部署爬虫定时运行
1、在合适的地方vim cai_piao.sh 创建并编辑文件 #!/bin/sh cd /home/python/Desktop/cai_piao_number # 进入到爬虫项目的路径 python3 main.py # 运行爬虫项目启动的主函数 2.在当前界面输入 crontab -e 点击Enter键进入编辑 在每天的21点自动启动运行 /home/python/Deskt...原创 2019-01-02 17:59:30 · 1870 阅读 · 0 评论 -
scrapy爬虫-TB模拟登陆抓取数据
(我用的谷歌浏览器,在淘宝登录页面,按F12键进入检查模式,点击Network,勾选Preserve log,点击登陆,这样就记录下了登陆需要提交的所有参数) -- coding: utf-8 -- import scrapy import re import json import time from tao_bao_data.items import TaoBaoDataItem class ...原创 2019-01-02 18:16:12 · 5305 阅读 · 0 评论 -
scrapy爬虫的一些命令行命令
scrapy爬虫 创建项目 scrapy startproject 项目名 创建一个名为itcast的爬虫,并指定爬取域的范围 scrapy genspider itcast “itcast.cn” scrapy crawl 项目名 -------------启动爬虫 scrapy-redis分布式爬虫启动项目 scrapy runspider 项目名.py redis-cli -h window...原创 2019-01-25 15:06:42 · 1223 阅读 · 1 评论 -
用一个函数,过滤爬虫抓取数据当中所有的HTML标签
def re_html(self, data): # 替换抓取数据中的html标签 try: message = str(data) re_h = re.compile(’</?\w+[^>]*>’) # html标签 ret1 = re_h.sub(’’, message) return ret1 except: pass ...原创 2019-01-22 16:58:16 · 975 阅读 · 0 评论