爬虫
淋巴不想动
logout
展开
-
python-scapy爬取mooc网保存在数据库中并下载图片
爬取的步骤- 确定url地址;- 获取页面信息;(urllib, requests);- 解析页面提取需要的数据; (正则表达式, bs4, xpath)- 保存到本地(csv, json, pymysql, redis);- 清洗数据(删除不必要的内容 -----正则表达式);- 分析数据(词云wordcloud + jieba)有没有用到多线程? -----获取页面信息...原创 2019-02-23 14:43:58 · 905 阅读 · 0 评论 -
python-xpath爬取mooc网并生成词云
需求:爬取的链接: http://www.imooc.com/course/list爬取的内容: 课程链接, 课程的图片url, 课程的名称, 学习人数, 课程描述爬取的内容如何存储:文件(.csv, );mysql数据库;分析爬取的信息;词云1 获取页面内容import reimport requestsimport lxml.etree as etree...原创 2019-02-20 20:54:58 · 680 阅读 · 0 评论 -
python-xpath页面解析
1. 解析页面模块比较:正则表达式是进行内容匹配,将符合要求的内容全部获取;xpath()能将字符串转化为标签,它会检测字符串内容是否为标签,但是不能检测出内容是否为真的标签;Beautifulsoup是Python的一个第三方库,它的作用和 xpath 作用一样,都是用来解析html数据的相比之下;xpath的速度会快一点,因为xpath底层是用c来实现的2.三者语法不同...原创 2019-02-20 15:40:59 · 2430 阅读 · 1 评论 -
python-爬取中国最好大学网页
需求:爬取中国最好大学网页2016-2019年:学校排名, 学校名称, 省份, 总分先以17年为例:http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html第一步:获取页面信息import requestsfrom bs4 import BeautifulSoupimport bs4def get_content(url,):...原创 2019-02-20 14:31:01 · 1102 阅读 · 2 评论 -
python-bs4模块
0. 概括获取页面: urllib, requests解析页面信息: 正则表达式, BeautifulSoup4(BS4)1. BS4简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除...原创 2019-02-20 11:57:09 · 971 阅读 · 0 评论 -
python - 保存cookie信息
cookie信息是什么?cookie某些网站为了辨别用户身份, 只有登陆某个页面才可以访问;登陆信息保存方式: 进行一个会话跟踪(session),将用户的相关信息保存到本地的浏览器中;保存cookie步骤:CookieJar ------> FileCookieJar —> MozilaCookie1. 获取cookie信息保存到变量from collections im...原创 2019-02-20 09:17:49 · 946 阅读 · 0 评论 -
python-(scrapy下)如何反爬虫
scrapy中如何反爬虫呢?反爬虫策略:1. 设置DOWNLOAD_DELAY = 3,设置下载的等待时间;每下载一个页面, 等待xxx秒。2. 禁止cookie信息;# Disable cookies (enabled by default)COOKIES_ENABLED = False3. 设置用户代理USER_AGENT = ‘Mozilla/5.0 (X11; Linux ...原创 2019-02-23 16:19:33 · 827 阅读 · 0 评论 -
python- (scrapy上)爬取csdn所有博客内容
创建csdn博客scrapy为了避免冲突,独立将生成的csdnSpider文件夹打开1编写csdn.py# -*- coding: utf-8 -*-import scrapyclass CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['csdn.net'] start_urls = ['h...原创 2019-02-23 14:59:28 · 1399 阅读 · 1 评论 -
python-反爬虫
1. 什么是爬虫?就是在互联网上一直爬行的蜘蛛, 如果遇到需要的资源, 那么它就会抓取下来(html内容);模拟浏览器快速访问页面的内容.2. 浏览网页的过程中发生了什么?浏览器输入http://www.baidu.com/bbs/;1). 根据配置的DNS获取www.baidu.com对应的主机IP;2). 根据端口号知道跟服务器的那个软件进行交互。3). 百度的服务器接收客户端...原创 2019-02-18 00:57:18 · 417 阅读 · 0 评论 -
scrapy项目脑图整理
1.爬取mooc网并生成词云2.scapy爬取mooc网保存在数据库中并下载图片3.(scrapy上)爬取csdn所有博客内容4.如何反爬虫原创 2019-04-19 16:01:36 · 164 阅读 · 0 评论