Python_Spider
Kylee Kello
不一定每个人都会失败,但也不一定每个人都运气好。怎么做是你的自由。
展开
-
Python爬虫 - 将爬取数据以JSON格式存储与读取
【 Python - 数据格式JSON化 】:介绍了数据JSON化的主要操作 源码: import requests import json from pprint import pprint from bs4 import BeautifulSoup url = "https://blog.csdn.net/qq_42292831/article/category/8257708" re...原创 2019-03-29 20:50:01 · 4401 阅读 · 2 评论 -
Python - 【珍藏】知识清单及文章链接
专题(引入):Python - 调用图灵机器人API V2.0实现微信自动回复 专题:Python - 知识整体框架 (思维导图) 专题:Python - 数据格式JSON化( json模块 ) 专题:Python - 列表表达式 专题:Python - join() + os.path.join() >>> 【列表拼...原创 2019-06-18 23:09:58 · 2169 阅读 · 4 评论 -
Python爬虫 - 正则表达式(re模块)
【2019.07.16 11:34】 [ ^0-9 ]:尖号在内部标识取反 ^[ 0-9 ]:尖号在外部表示匹配一个以[0-9]开头的数字 【 ^[^#]:匹配非#开头的一个字符(grep ^[^#] aaa.txt > bbb.txt)】 【 ^$:Django中使用url(不是path)进行首页路由的匹配 】 实例一:仅匹配两位数字 >>> t...原创 2019-07-16 11:35:04 · 2369 阅读 · 0 评论 -
Python爬虫 - RFC1~3093(中文文档)
import time import requests def fetch(url, file): try: data = requests.get(url).content.decode('GB2312') if data[0] == "<": print(file,"Not Exists!") r...原创 2019-08-29 09:56:10 · 422 阅读 · 0 评论 -
Python爬虫 - 去除文件中的空行+每行中连续的空格
import re import os def replace_comma(data): """ Remove the comma,\t from a string """ return re.sub("[ \t]+",",",data) def remove_old(filename_old,filename_new): """ remove...原创 2019-09-02 23:19:44 · 3689 阅读 · 0 评论 -
Python - 异常处理(try...except...else...finally...)
注意:语句书写的时候需要注意大小写规范! Python内置的异常处理库:BaseException Python第三方requests库中的基本异常库:requests.RequestExceptoin 常见的错误类型:ZeroDivisionError #除数为0错误NameError #明明错误TypeError #类型错误IndexError #下标越界错误...原创 2019-03-02 19:51:27 · 1991 阅读 · 0 评论 -
Python爬虫 - Beautiful Soup 4.2.0(bs4)
【Beautiful Soup 4.2.0官方中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/】 bs4简单介绍 BeautifulSoup的导入、使用及解释 Tag对象的string属性和text属性 strip()、lstrip()、rstrip()清洗数据 bs4简单介绍 上一篇爬虫文章使用了正则表达...原创 2019-03-02 19:38:02 · 2866 阅读 · 0 评论 -
Python爬虫 - ChromeDriver与Selenium
测试打开与关闭浏览器的语句: from selenium import webdriver import time browser = webdriver.Chrome() #open a chrome browser browser.get('http://www.taobao.com') print(browser.page_source) #browser.close() inp...原创 2019-03-07 21:28:37 · 1535 阅读 · 0 评论 -
Python爬虫 - 【CSDN】爬取指定博主的所有博客名与链接
注意事项: 每个页面首端会异常,代码中已做过滤处理 遇到'gbk' codec can't encode character '\u25ee' 之类问题,将打开文件的编码与requests请求返回对象response的编码改为一致即可 源码: # -*- coding: utf-8 -*- """ Created on Thu Mar 7 21:34:52 2019 @auth...原创 2019-03-07 23:51:47 · 1735 阅读 · 0 评论 -
Python爬虫 - 【开源中国】Ajax渲染页面信息爬取
注意:Response类型不是JSON,直接使用BS4库即可 源码: # -*- coding: utf-8 -*- """ Created on Fri Mar 8 08:03:49 2019 @author: dell """ #.text表示该标签下的左右子标签的文本信息!!! import requests import time from urllib.pars...原创 2019-03-08 09:24:55 · 1672 阅读 · 0 评论 -
Python爬虫 - 【实例】爬取4399炉石传说800张卡牌图片并存储
# -*- coding: utf-8 -*- """ Created on Tue Mar 5 12:43:09 2019 @author: dell """ import requests import random from bs4 import BeautifulSoup user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel M...原创 2019-03-05 17:57:53 · 3051 阅读 · 0 评论 -
Python爬虫 - 使用pyquery库中的PyQuery方法解析HTML【示例】
import requests from pyquery import PyQuery url = "https://book.douban.com/top250" html = requests.get(url).content.encode("utf-8") data = PyQuery(html) #id:使用#限定该标记 #class:使用.限定该标记 #具体使用见下方示例 data...原创 2019-03-04 23:28:57 · 1561 阅读 · 0 评论 -
Python爬虫 - 解析Requests库
【Requests库官方中文文档:http://cn.python-requests.org/zh_CN/latest/】 示例语句: html = requests.get(url,headers=headers,proxies=proxy,timeout=3) 本篇文章将解析上述划线部分:函数的返回值以及四个参数的含义及用法 专题:【python异常处理】 专题:【python断言】...原创 2019-03-02 20:27:11 · 2615 阅读 · 0 评论 -
Python爬虫 - Excel格式转CSV
import pandas as pd def xlsx_to_csv(filename_old,filename_new): """ type(filename1) is xlsx, type(filename2) is csv this function depend on xlrd in default, so you must install it before...原创 2019-09-02 23:49:34 · 274 阅读 · 0 评论