![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
淋巴不想动
logout
展开
-
python-scapy爬取mooc网保存在数据库中并下载图片
爬取的步骤 - 确定url地址; - 获取页面信息;(urllib, requests); - 解析页面提取需要的数据; (正则表达式, bs4, xpath) - 保存到本地(csv, json, pymysql, redis); - 清洗数据(删除不必要的内容 -----正则表达式); - 分析数据(词云wordcloud + jieba) 有没有用到多线程? ----- 获取页面信息...原创 2019-02-23 14:43:58 · 900 阅读 · 0 评论 -
python-xpath爬取mooc网并生成词云
需求: 爬取的链接: http://www.imooc.com/course/list 爬取的内容: 课程链接, 课程的图片url, 课程的名称, 学习人数, 课程描述 爬取的内容如何存储: 文件(.csv, ); mysql数据库; 分析爬取的信息; 词云 1 获取页面内容 import re import requests import lxml.etree as etree...原创 2019-02-20 20:54:58 · 659 阅读 · 0 评论 -
python-xpath页面解析
1. 解析页面模块比较: 正则表达式是进行内容匹配,将符合要求的内容全部获取; xpath()能将字符串转化为标签,它会检测字符串内容是否为标签,但是不能检测出内容是否为真的标签; Beautifulsoup是Python的一个第三方库,它的作用和 xpath 作用一样,都是用来解析html数据的相比之下;xpath的速度会快一点,因为xpath底层是用c来实现的 2.三者语法不同...原创 2019-02-20 15:40:59 · 2393 阅读 · 1 评论 -
python-爬取中国最好大学网页
需求: 爬取中国最好大学网页2016-2019年:学校排名, 学校名称, 省份, 总分 先以17年为例: http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html 第一步:获取页面信息 import requests from bs4 import BeautifulSoup import bs4 def get_content(url,): ...原创 2019-02-20 14:31:01 · 1072 阅读 · 2 评论 -
python-bs4模块
0. 概括 获取页面: urllib, requests 解析页面信息: 正则表达式, BeautifulSoup4(BS4) 1. BS4简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个 工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 你不需要考虑编码方式,除...原创 2019-02-20 11:57:09 · 937 阅读 · 0 评论 -
python - 保存cookie信息
cookie信息是什么? cookie某些网站为了辨别用户身份, 只有登陆某个页面才可以访问;登陆信息保存方式: 进行一个会话跟踪(session),将用户的相关信息保存到本地的浏览器中; 保存cookie 步骤:CookieJar ------> FileCookieJar —> MozilaCookie 1. 获取cookie信息保存到变量 from collections im...原创 2019-02-20 09:17:49 · 912 阅读 · 0 评论 -
python-(scrapy下)如何反爬虫
scrapy中如何反爬虫呢? 反爬虫策略: 1. 设置DOWNLOAD_DELAY = 3, 设置下载的等待时间;每下载一个页面, 等待xxx秒。 2. 禁止cookie信息; # Disable cookies (enabled by default) COOKIES_ENABLED = False 3. 设置用户代理 USER_AGENT = ‘Mozilla/5.0 (X11; Linux ...原创 2019-02-23 16:19:33 · 817 阅读 · 0 评论 -
python- (scrapy上)爬取csdn所有博客内容
创建csdn博客scrapy 为了避免冲突,独立将生成的csdnSpider文件夹打开 1编写csdn.py # -*- coding: utf-8 -*- import scrapy class CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['csdn.net'] start_urls = ['h...原创 2019-02-23 14:59:28 · 1390 阅读 · 1 评论 -
python-反爬虫
1. 什么是爬虫? 就是在互联网上一直爬行的蜘蛛, 如果遇到需要的资源, 那么它就会抓取下来(html内容); 模拟浏览器快速访问页面的内容. 2. 浏览网页的过程中发生了什么? 浏览器输入http://www.baidu.com/bbs/; 1). 根据配置的DNS获取www.baidu.com对应的主机IP; 2). 根据端口号知道跟服务器的那个软件进行交互。 3). 百度的服务器接收客户端...原创 2019-02-18 00:57:18 · 404 阅读 · 0 评论 -
scrapy项目脑图整理
1.爬取mooc网并生成词云 2.scapy爬取mooc网保存在数据库中并下载图片 3.(scrapy上)爬取csdn所有博客内容 4.如何反爬虫原创 2019-04-19 16:01:36 · 157 阅读 · 0 评论