Python爬虫学习

最新推荐文章于 2024-11-14 10:58:54 发布

遇见鲸鱼

最新推荐文章于 2024-11-14 10:58:54 发布

阅读量1.7k

点赞数

分类专栏： Python学习文章标签：数据分析 python

本文链接：https://blog.csdn.net/dbb489660447/article/details/123724370

版权

Python学习专栏收录该内容

4 篇文章 3 订阅

订阅专栏

小白一枚，想要入行Python数据分析~

已经毕业两年了，定居西安，大学专业软件工程，当时毕业没去互联网公司上班，选择了少儿编程行业，如今的教育行业不是很理想哇，挺迷茫的~

现在就想重新入行程序员，可能会掉头发，哈哈哈，但是我好像头发还挺更多，掉就掉吧~

看了很多关于Python数据分析师岗位的招聘，基本要求都是Excel，Mysql，Python，PPT，BI工具，分析方法啥的，这些我基本上都会一些些，现在就是缺乏系统的学习路线；

最近关注了一个UP主@戴戴戴师兄，提供了一个我认为比较有参考价值的学习路线

附上链接：https://yrzu9y4st8.feishu.cn/docs/doccnzwzLDGEnGoVsF6YT9Sh2Zd

希望和我有同样想法的，现在！立刻！马上！学起来！

当然，想要入行数据分析，还是要有兴趣，不能因为高薪（月薪确实高，哈哈哈）盲目选择，要不然就是浪费时间呢~

想要一起学习的小伙伴，记得点个关注，一起学习，一起进步~ 作者：李易年 https://www.bilibili.com/read/cv15725502 出处：bilibili

import requests
# 处理URL携带的参数：封装到字典中
# UA伪装，将对应的User- Agent 封装到字典中
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'"
}
url = 'https://www.sogou.com/web'
kw = input('enter a word: ')
params = {
    'query':kw
}
#? 对指定的URL发起的请求对应的URL是携带参数的，并且请求过程中处理了参数
response = requests.get(url = url,params=params,headers=headers)
response.encoding="utf-8"
page_txt = response.text
filename = kw+'.html'
with open(filename,'w',encoding="utf-8") as fp:
    fp.write(page_txt)
print(filename,'保存成功')

#? 爬取网页部分的局部数据  -- 百度翻译
import requests
import json
url = 'https://fanyi.baidu.com/sug'
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'"
}
word = input("请输入你要查询的单词")
data = {
    'kw':word
}
#? post 请求，携带了参数
#? 相应数据是一组json数据
response = requests.post(url=url,data=data,headers=headers)
#? 如果确认相应数据是 json类型的才可以使用 json() content-Type查看
page_json= response.json()
filename = word+'.json'
fp = open(filename,'w',encoding="utf-8")
json.dump(page_json,fp=fp,ensure_ascii=False)
print(page_json)

#? 爬取豆瓣电影
import requests
import json
url = "https://movie.douban.com/j/chart/top_list?"
params = {
    'type': '24',
    'interval_id':'100:90',
    'action':'',
    'start': '0', #? 从库中的第几部电影去取,索引是从0开始的
    'limit': '20',#? 一次取出的个数
}
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'"
}
response = requests.get(url= url,params=params,headers=headers)
page_json = response.json()
fp = open('./douban.json','w',encoding="utf- 8")
json.dump(page_json,fp=fp,ensure_ascii=False)
print("over ~~~")

#? 爬取肯德基餐厅信息查询
import requests
def Kfc(city):
    for i in range(1, 11):
        pms = {
            'cname': '',
            'pid': '',
            'keyword': city,
            'pageIndex': i,
            'pageSize': '10'
        }
        res = requests.post(url=url, data=pms, headers=headers)
        data = res.text
        filename = city+'.txt'
        with open(filename,'w',encoding='utf-8') as fp:
            fp.write(data)
if __name__ == '__main__':
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'"
    }
    keyword = input("请输入城市名称：")
    Kfc(keyword)
    print("over~~")