![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
廖雪峰爬虫笔记
文章平均质量分 79
Python
Sparky*
只有经历过一切,才有资格选择
展开
-
pip下载失败-切换pip源(一行代码搞定)
当pip下载失败时,可以采用下面的方法方法很简单:打开cmd界面,输入以下代码pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple附国内常用镜像源:阿里云:https://mirrors.aliyun.com/pypi/simple/中国科技大学:https://pypi.mirrors.us...原创 2020-04-30 11:16:46 · 698 阅读 · 0 评论 -
python3.7,Anaconda与pycharm的配置(详细图解)
Anaconda的下载Anaconda下载地址在网站中点击Download的按钮,转到如下图所示,选择红方框中的版本下载打开下载好的Anaconda3-2020.02-Windows-x86_64.exe文件,出现如下界面。3.然后一直下一步之后就完成了,因为我已经安装过了,后面的截图也就不展示了如何下载需要的包安装完成之后点击下面的搜索框,搜索Anaconda...原创 2020-05-02 00:29:39 · 2967 阅读 · 0 评论 -
词云可视化(摘录)
文章目录本课概要安装本课程所需的Python第三方模块一行命令安装(推荐,适用于99.999%的情况)如果安装过程中报错(0.001%会发生)四行Python代码上手词云制作1号词云:《葛底斯堡演说》黑色背景词云(4行代码上手)美化词云2号词云:面朝大海,春暖花开(配置词云参数)常用参数从外部文件读入文本3号词云:乡村振兴战略中央文件(句子云)中文分词中文分词第三方模块`jieba`中文分词-小试...原创 2020-05-02 00:59:08 · 3165 阅读 · 1 评论 -
输出目录下所有文件及文件夹
1.输出当前文件夹的绝对目录import osprint(os.getcwd())2.让Python自动处理路径连接'''Windows中采用反斜杠(\)作为文件夹之间的分隔符Mac和Linux中采用斜杠(/)作为文件夹之间的分隔符反斜杠在Python中用于转义所以变成了两个反斜杠\\'''import osprint(os.path.join('Sparky','AI')) #Sparky\AI3.列出当前程序文件夹下的所有文件和文件夹import osprint(os.l原创 2020-05-14 00:12:31 · 1182 阅读 · 0 评论 -
廖雪峰爬虫第十五节(mysql_pychon)
mysql与pycharm连接# 1.安装 pip install pymysqlimport pymysqltry: # 1.链接 数据库 链接对象 connection() conn = pymysql.Connect( host="localhost", port=3306, db='animal',#数据库 user='root', passwd="198248", chars原创 2020-05-24 10:05:23 · 236 阅读 · 0 评论 -
廖雪峰爬虫第八节
文章目录字符串和 dic list转换读取、写入json文件json 中的数据 转换 成 csv文件字符串和 dic list转换import json# 1.字符串和 dic list转换# 字符串(json)----dict list----.loadsdata = '[{"name":"张三","age":20},{"name":"李四","age":18}]'print(data)list_data = json.loads(data)print(list_data)# di原创 2020-05-10 15:01:24 · 159 阅读 · 0 评论 -
廖雪峰爬虫第七节(bs4)
文章目录Beautiful Soup 4.4.0 文档四大对象基本语法Beautiful Soup 4.4.0 文档Beautiful Soup 4.4.0 文档四大对象TagNavigableStringBeautifulSoupComment# pip install beautifulsoup4from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormou原创 2020-05-10 08:34:10 · 294 阅读 · 0 评论 -
廖雪峰爬虫第六节(Xpath)
文章目录xpath基础语法xpath基础语法import reimport requests# 安装支持 解析html和XML的解析库 lxml# pip install lxmlfrom lxml import etreeurl = 'http://news.baidu.com/'headers = { "User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML原创 2020-05-08 21:36:38 · 288 阅读 · 0 评论 -
廖雪峰爬虫第五节(正则)
文章目录贪婪与非贪婪除了 换行符号\n 之外的 匹配纯数字的正则范围运算常用匹配函数值得一看!!!知识小结贪婪与非贪婪import re# 贪婪模式 从开头匹配到结尾 默认# 非贪婪one = 'mdfsdsfffdsn12345656n'two = "a\d"# pattern = re.compile('a\d')pattern = re.compile('m(.*?)n')...原创 2020-05-08 19:09:57 · 220 阅读 · 0 评论 -
廖雪峰爬虫第四节
文章目录关于cookies1.获取网站首页手动添加cookies获取个人中心3.自动带着cookie 去请求个人中心提示错误Response响应response基本函数自动转译用json转为字典知识总结关于cookies1.获取网站首页import urllib.request# 1.数据urlurl = 'https://www.yaozh.com/'# 2.添加请求头heade...原创 2020-05-07 13:28:08 · 1059 阅读 · 0 评论 -
廖雪峰爬虫第二节
文章目录添加并查看用户代理随机用不同用户访问浏览器知识小结添加并查看用户代理import urllib.requestdef load_baidu(): url= "https://www.baidu.com" header = { #浏览器的版本 "User-Agent":"Mozilla/5.0 (Macintosh; Intel Ma...原创 2020-05-03 14:10:40 · 317 阅读 · 0 评论 -
廖雪峰爬虫第一节
http中的一些基本名词requestheader — 请求头里面response — 返回数据Accept — 文本格式Accept-Encoding— 编码格式Connection— 长链接 短连接Cookie— 验证用的Host— 域名Referer— 标志从哪个页面跳转过来的User-Agent— 浏览器和用户的信息爬虫的基本原理确认你抓取目标的url是哪一个(找)...原创 2020-05-02 15:31:39 · 457 阅读 · 0 评论