![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python_爬虫初级
Tina_053
这个作者很懒,什么都没留下…
展开
-
爬取马蜂窝景点的数据
# -*- coding: utf-8 -*-import requestsfrom requests import RequestExceptionimport refrom pyquery import PyQuery as pqheaders = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build...原创 2018-12-13 15:55:16 · 2781 阅读 · 0 评论 -
Python 爬虫练习--- requests+beautifulSoup+re
爬取某互联网公司网站的投资产品信息:https://member.niwodai.com/portal/inteBid/inteBidPage.do首先解析网站结构:经过上述的网页源代码解析,下面是是实现的具体步骤:import requestsfrom requests import RequestExceptionimport reheaders = {'User-Agent...原创 2018-12-06 16:37:23 · 544 阅读 · 1 评论 -
python爬虫 爬取猫眼top100
import requestsfrom requests.exceptions import RequestExceptionimport redef get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537....原创 2018-12-01 21:02:17 · 397 阅读 · 0 评论 -
python中爬虫相关包的安装方法
urllibrerequestrequestsseleniumchromedriverphantomjslxmlbeautifulsouppyquerypymysqlpymongoredisflaskdjangojupyter目前就收到到这么多,后续有新增的再来补充原创 2018-11-26 10:06:36 · 796 阅读 · 0 评论 -
Python --爬虫 头条街拍图片爬取
分析逻辑基本和前面的类似,只是这次将数据源存入mogodb中。具体实现代码如下:import requestsfrom requests.exceptions import RequestException #requests请求时错误类型from urllib.parse import urlencodeimport json #json解析from bs4 import Beau...原创 2019-03-13 17:43:29 · 136 阅读 · 0 评论 -
微信sougo中 风景关键字搜索 文章爬取
####config 文件的参数#mongodb的参数MONGO_URL = 'localhost'MONGO_DB = 'weixin'MONGO_TABLE = 'article_data'POOL_PROXY_URL = 'http://127.0.0.1:5000/get' # 初始化代理KEYWORDS= '风景' # 搜索的内容base_url = 'https:...原创 2019-03-13 17:49:12 · 660 阅读 · 1 评论