![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
厄运鹰人
NLP学徒
展开
-
爬虫框架2(BeautifulSoup解析网页)
列表数据翻页# -*- coding:utf-8 -*-#@Time : 2020/6/2 0002 15:04#@Author: Yang-Zhenping#@File : signal_spider.pyimport requestsimport jsonfrom bs4 import BeautifulSoupdef get_url(html): title_=[] url_list=[] res=requests.get(html) res.encod原创 2021-09-16 20:12:52 · 124 阅读 · 0 评论 -
爬虫框架1(模拟浏览器)
模拟浏览器(模拟人工点击浏览器)谷歌插件chromedriver.exe必备包1.seleniumfrom selenium import webdriverimport time,random,datetimeimport osfrom selenium.webdriver.chrome.options import Optionsos.environ['NLS_LANG']='SIMPLIFIED CHINESE_CHINA.UTF8'# 模拟浏览器,使用谷歌浏览器,将chromedr原创 2021-09-16 20:01:44 · 234 阅读 · 0 评论 -
数据处理及爬虫学习
数据处理jsonjson格式:格式1:[{“name”:”jack” “age”:”18”} ,{“name”:”jack” “age”:”18”} ]格式2:{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”}读取json文本,有两种方法:针对json格式1,通过json.load(file)直接转换为多个dict针对js原创 2020-10-18 14:51:08 · 347 阅读 · 0 评论