![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
F_aF_a
这个作者很懒,什么都没留下…
展开
-
【爬虫入门】【正则表达式】【Json】抓取CSDN最新文章
爬取csdn文章的JSON数据数据库分为关系型数据库和关系型数据库,关系型数据库需要通过建立表与表之间的关系来进行数据的存储和查询,比如一对一、一对多、多对多关系,表与表之间的关系比较紧密。而非关系型数据库中,表与表之间是不存在关联的,每一个表都是独立存储数据的。mongodb属于非关系型数据库,可以在表里直接存储字典,所以在保存数据的时候比较方便。# 接口请求的规律:每请求一次接口,该接口...原创 2019-01-10 12:00:29 · 264 阅读 · 0 评论 -
【爬虫入门】【Json】爬取智联招聘
爬虫中也会经常会遇到以JSON数据返回内容的网站,这种网站不再需要使用正则表达式匹配文本,直接分析网站是否含有接口返回JSON,如果有,直接使用json.load()对json字符串进行解析就可以获取数据。# pip install requests:比较流行的第三方请求库#https://sou.zhaopin.com/?jl=489import requestsresponse = ...原创 2019-01-09 16:27:39 · 773 阅读 · 0 评论 -
【爬虫入门】【正则表达式】【同步】爬取人人车车辆信息1.0
# 爬取人人车车车辆信息。from urllib.request import urlopenfrom urllib.error import HTTPErrorimport re, sqlite3class RRCSpider(object): """ 人人车爬虫类 """ def __init__(self): pass ...原创 2019-01-09 12:57:53 · 815 阅读 · 0 评论 -
pycharm的调试面板
原创 2019-01-08 14:47:37 · 568 阅读 · 2 评论 -
【爬虫入门】【正则表达式】抓取白敬亭贴吧某个帖子下的图片2.0
在原有基础上添加异常处理模块,防止访问正则表达式提取的东西的时候出现异常修改def getImg (html)函数def getImg(html): #此处修改 for imgurl in imglist: try: urllib.request.urlretrieve(imgurl, '{}{}.jpg'.format(paths, "...原创 2019-01-08 14:07:04 · 294 阅读 · 0 评论 -
【爬虫入门】【正则表达式】抓取糗事百科的段子3.0
在原有基础上,增加写入伪造浏览器的UserAgentfake_user_agent: pip install fake-useragent//这个第三方库,维护了各种主流浏览器的UA标识,并且会定时更新这个库,淘汰一些过期的UA。首先,在pycharm中安装fake_useragent然后修改爬虫类的代码from fake_useragent import UserAgentclas...原创 2019-01-08 11:47:23 · 169 阅读 · 0 评论 -
【爬虫入门】【正则表达式】抓取糗事百科的段子2.0
在原有基础上,增加写入数据库操作class DBTool(object): """ 将数据保存到数据库的工具类,主要负责数据库的增删改查操作。 """ connect = None # 类属性需要先声明 cursor = None # 操作数据库: # 1.创建数据库的连接对象,创建游标,原创 2019-01-08 09:58:49 · 158 阅读 · 0 评论 -
正则表达式
#coding:utf-8#正则表达式:正则表达式主要是操作字符串的,实现数据的提取,查找和替换import restring = '<a>1</a><a>2</a><a>3</a><a>4&原创 2019-01-07 21:11:02 · 227 阅读 · 0 评论 -
【爬虫入门】抓取糗事百科的段子1.0
爬取糗事百科信息注意:爬取任何一个网站,首先要确定的就是这个网站是静态网站还是动态网站。其次看看这个GET请求是否携带了特殊的参数。最后需要留意请求头中的Cookie信息。class QSBKSpider(object): """ 爬虫类 """ def __init__(self): # 将各个页面通用的路径,不变的路径声明为属性,调用方便,..原创 2019-01-07 17:33:13 · 151 阅读 · 1 评论 -
【爬虫入门】抓取白敬亭贴吧某个帖子下的图片1.0
import urllib.requestimport reimport osimport urllib# 根据给定的网址来获取网页详细信息,得到的html就是网页的源代码def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.decode('UTF...原创 2019-01-07 12:55:17 · 306 阅读 · 2 评论 -
【爬虫】抓取人人车论坛的内容,并且保存Mongodb
import json, requests, reimport pymongoclass RRCSpider(object): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36...原创 2019-01-11 20:23:17 · 726 阅读 · 0 评论 -
【爬虫】爬取百度图片加载不出来
图片加载不出来?(防盗链)在img标签禁用referer博客https://blog.csdn.net/fRF0lw4/article/details/80105574 防盗链解决方案https://www.cnblogs.com/lydiawork/p/7838153.html 防盗链原理...原创 2019-01-17 13:39:58 · 2994 阅读 · 0 评论 -
【爬虫入门】下载网易云歌单中的歌曲到本地
from tkinter import *import requestsfrom bs4 import BeautifulSoupfrom urllib.request import urlretrievedef download(): url = entry.get() new_url = url.replace('/#', '') header = { ...转载 2019-01-11 11:39:48 · 531 阅读 · 0 评论 -
【爬虫入门】抓取今日头条的街拍搜索页的图片,并保存到数据库和本地
使用多进程对街拍图片进行下载,并将图片相关信息保存到mongodb数据库中。import requests, re, json, pymongofrom multiprocessing import Poolfrom urllib.parse import urlencodefrom hashlib import md5class JiePaiSpider(object): ...原创 2019-01-10 19:29:38 · 482 阅读 · 0 评论