爬虫
爬虫
这是个菜比测试
这个作者很懒,什么都没留下…
展开
-
Python爬虫增加CSDN博客访问量
from faker import Factoryimport requestsimport reimport timedef get_page_id(home_url): user_agent = Factory.create() headers = {"User-Agent": user_agent.user_agent()} home = request...原创 2020-04-16 17:24:47 · 1197 阅读 · 0 评论 -
python的faker库批量生成User-Agent
前言大网站都会有反爬机制,会通过检查请求头里是否带有user-agent来判断请求是否是爬虫。当但即使你加上user-agent后,频繁的使用同一个user-agent进行请求后,还是会触发反爬机制,所以就有了神奇的faker库例子from faker import Factory# 生成不同的user-agentUser_Agent = Factory.create()fo...原创 2020-04-14 14:13:11 · 2095 阅读 · 0 评论 -
超好用爬虫下载进度条模块
前言:非本人编写,偶然看到分享学习 原作者:全 洛模块import osimport requestsimport time# 进度条模块def progressbar(url, path): if not os.path.exists(path): # 看是否有该文件夹,没有则创建文件夹 os.mkdir(path) start =...原创 2020-04-03 10:00:25 · 654 阅读 · 0 评论 -
爬取五八同城的的租房信息,保存进记事本(缺点未加保存限制,部分特殊字符也会保存进去)
import requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': for nn in range(10): if nn == 1: url = 'http://cd.58.com/zufang/0/j1' else: url =...原创 2018-09-10 14:43:36 · 384 阅读 · 0 评论 -
我的第一只爬虫
# Python小白的挣扎# 大神轻锤# 小白的第一个爬虫# 求大神多指点# 这里导入要先导入BeautifulSoup和requestsfrom bs4 import BeautifulSoupimport requests# 这里是你要爬取的网页路径,我这里爬的是糗事百科url = 'https://www.qiushibaike.com/pic/'# 用requests.get方法...原创 2018-06-11 15:35:38 · 1085 阅读 · 0 评论 -
Python爬取js渲染页面方法 ---- PhantomJS
爬取某个网站页面的时候,我发现明明可以看见的src被我爬下来的时候显示为空,让我百思不得其解(大神无视),后面得知是被js渲染的页面无法直接获取他的src,最终得到了以下解决方法:使用 PhantomJS 解决1.直接百度下载 PhantomJS 解压使用,把bin目录配置到PATH环境2.贴代码。会的一看就懂,不会的,我也没办法...原创 2018-12-17 14:05:50 · 2917 阅读 · 0 评论 -
爬取QQ群成员信息并批量发送QQ邮件(带傻瓜操作界面)
from selenium import webdriverfrom bs4 import BeautifulSoupfrom smtplib import SMTP_SSLfrom email.mime.text import MIMETextfrom email.header import Headerimport timeimport reimport win32apiim...原创 2019-08-02 10:41:27 · 6961 阅读 · 6 评论